Mengapa ahli statistik melarang kami untuk merujuk hasil sebagai " sangat signifikan" ketika nilai- jauh di bawah tingkat- α konvensional 0,05 ?
Apakah benar-benar salah mempercayai hasil yang memiliki peluang 99,9% untuk tidak menjadi kesalahan Tipe I ( ) lebih dari hasil yang hanya memberi Anda peluang itu pada 99% ( p = 0,01 )?
Jawaban:
Saya pikir tidak ada yang salah dengan mengatakan bahwa hasilnya "sangat signifikan" (walaupun ya, itu agak ceroboh).
Ini berarti bahwa jika Anda telah menetapkan tingkat signifikansi jauh lebih kecil , Anda akan masih dinilai hasil yang signifikan. Atau, setara, jika beberapa pembaca Anda memiliki α yang jauh lebih kecil dalam pikiran, maka mereka masih dapat menilai hasil Anda sebagai signifikan.α α
Perhatikan bahwa tingkat signifikansi ada di mata yang melihatnya, sedangkan nilai p adalah (dengan beberapa peringatan) properti dari data.α p
Mengamati tidak sama dengan mengamati p = 0,04 , meskipun keduanya bisa disebut "signifikan" oleh konvensi standar bidang Anda ( α = 0,05 ). Tiny p -value berarti bukti yang lebih kuat terhadap nol (bagi mereka yang menyukai kerangka kerja pengujian hipotesis Fisher); itu berarti bahwa interval kepercayaan di sekitar ukuran efek akan mengecualikan nilai nol dengan margin yang lebih besar (bagi mereka yang lebih suka CIs untuk nilai- p ); itu berarti probabilitas posterior dari nol akan lebih kecil (untuk Bayesian dengan beberapa sebelumnya); ini semua setara dan berarti bahwa temuannya lebih meyakinkanp=10−10 p=0.04 α=0.05 p p . Lihat Apakah nilai p yang lebih kecil lebih meyakinkan? untuk diskusi lebih lanjut.
Istilah "sangat signifikan" tidak tepat dan tidak perlu. Ini adalah penilaian ahli subjektif, mirip dengan mengamati ukuran efek yang sangat besar dan menyebutnya "besar" (atau mungkin hanya "sangat besar"). Tidak ada yang salah dengan menggunakan deskripsi kualitatif dan subyektif dari data Anda, bahkan dalam penulisan ilmiah; asalkan tentu saja, bahwa analisis kuantitatif obyektif disajikan juga.
Lihat juga beberapa komentar luar biasa di atas, +1 ke @whuber, @Glen_b, dan @COOLSerdash.
sumber
Ini pertanyaan umum.
Pertanyaan serupa mungkin "Mengapa p <= 0,05 dianggap signifikan?" ( http://www.jerrydallal.com/LHSP/p05.htm )
@ Michael-Mayer memberikan satu bagian dari jawaban: signifikansi hanya satu bagian dari jawaban. Dengan data yang cukup, biasanya beberapa parameter akan muncul sebagai "signifikan" (lihat koreksi Bonferroni). Beberapa pengujian adalah masalah yang spesifik di genetika di mana penelitian besar mencari makna yang umum dan p-nilai <10 -8 sering diperlukan ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ ).
Juga, satu masalah dengan banyak analisis adalah bahwa mereka oportunistik dan tidak direncanakan sebelumnya (yaitu "Jika Anda cukup menyiksa data, alam akan selalu mengaku." - Ronald Coase).
Secara umum, jika analisis sudah direncanakan sebelumnya (dengan koreksi analisis berulang untuk kekuatan statistik), itu dapat dianggap signifikan. Seringkali, pengujian berulang oleh banyak individu atau kelompok adalah cara terbaik untuk mengonfirmasi bahwa sesuatu bekerja (atau tidak). Dan pengulangan hasil seringkali merupakan tes yang tepat untuk signifikansi.
sumber
Tes adalah alat untuk keputusan hitam-putih, yaitu mencoba menjawab pertanyaan ya / tidak seperti 'apakah ada efek pengobatan yang benar?'. Seringkali, terutama jika kumpulan data besar, pertanyaan seperti itu cukup membuang sumber daya. Mengapa mengajukan pertanyaan biner jika memungkinkan untuk mendapatkan jawaban atas pertanyaan kuantitatif seperti 'seberapa besar efek pengobatan yang sebenarnya?' yang secara implisit menjawab juga pertanyaan ya / tidak? Jadi, alih-alih menjawab pertanyaan ya / tidak informatif dengan kepastian tinggi, kami sering merekomendasikan penggunaan interval kepercayaan yang berisi lebih banyak informasi.
sumber