Apakah salah untuk menyebut hasil sebagai "sangat signifikan"?

18

Mengapa ahli statistik melarang kami untuk merujuk hasil sebagai " sangat signifikan" ketika nilai- jauh di bawah tingkat- α konvensional 0,05 ?pα0.05

Apakah benar-benar salah mempercayai hasil yang memiliki peluang 99,9% untuk tidak menjadi kesalahan Tipe I ( ) lebih dari hasil yang hanya memberi Anda peluang itu pada 99% ( p = 0,01 )?p=0.001p=0.01

Z8080
sumber
16
Mungkin patut membaca jawaban @ gung di sini . Singkatnya: Untuk keputusan "signifikan vs tidak-signifikan" atau "tolak hipotesis nol vs jangan tolak hipotesis nol" itu hanya masalah apakah nilai- bawah α Anda yang Anda tetapkan sebelum penelitian (Neyman & Pearson) . Di sisi lain, Anda dapat menganggap nilai- p sebagai ukuran terus-menerus bukti terhadap hipotesis nol yang tidak memiliki "cutoff" (Fisher). pαp
COOLSerdash
10
Anda tampaknya memiliki kesalahpahaman serius tentang nilai-p (nilai-p bukan probabilitas kesalahan) yang, jika diperbaiki, dapat membantu Anda memahami mengapa Anda mungkin mendengar hal-hal tertentu dari ahli statistik.
pria
10
Saya mengakui bahwa saya terkadang menggunakan frasa seperti "sangat signifikan." Di tempat lain dalam laporan banyak hasil awal mungkin harus disesuaikan untuk beberapa pengujian, di mana "sangat signifikan" memperoleh makna yang lebih teknis dari "tetap signifikan bahkan setelah penyesuaian yang tepat untuk beberapa perbandingan." Bahkan ketika semua pembaca sepakat tentang tepat untuk digunakan (yang jarang digunakan untuk analisis yang digunakan oleh banyak pemangku kepentingan), apa yang "signifikan" atau tidak tergantung pada serangkaian hipotesis yang ada dalam pikiran setiap pembaca sebelum melihat laporan. α
whuber
7
Tidak semua ahli statistik mengatakan itu salah. Saya menggunakan istilah ini sendiri pada kesempatan (yang diakui jarang) - misalnya untuk menandakan bahwa pada data ini nol akan ditolak oleh orang yang beroperasi pada tingkat signifikansi yang jauh lebih rendah daripada yang saya gunakan, tetapi penting untuk tidak melampirkan lebih banyak makna padanya daripada yang ada. Saya hanya mengatakan bahwa seseorang harus berhati-hati - kadang-kadang cukup banyak - ketika menafsirkan makna frasa seperti itu, daripada secara khusus salah . Beberapa poin di sini akan relevan.
Glen_b -Reinstate Monica
7
(ctd) ... sebagai perbandingan, saya pikir kekhawatiran yang lebih besar adalah orang-orang yang menggunakan tes hipotesis yang tidak menjawab pertanyaan mereka tentang minat (yang menurut saya sering terjadi). Lebih baik fokus pada masalah yang mencolok dan penting itu, daripada menjadi terlalu dogmatis tentang ketidaksempurnaan kecil dalam cara mereka mengekspresikan nilai p yang sangat kecil.
Glen_b -Reinstate Monica

Jawaban:

17

Saya pikir tidak ada yang salah dengan mengatakan bahwa hasilnya "sangat signifikan" (walaupun ya, itu agak ceroboh).

Ini berarti bahwa jika Anda telah menetapkan tingkat signifikansi jauh lebih kecil , Anda akan masih dinilai hasil yang signifikan. Atau, setara, jika beberapa pembaca Anda memiliki α yang jauh lebih kecil dalam pikiran, maka mereka masih dapat menilai hasil Anda sebagai signifikan.αα

Perhatikan bahwa tingkat signifikansi ada di mata yang melihatnya, sedangkan nilai p adalah (dengan beberapa peringatan) properti dari data.αp

Mengamati tidak sama dengan mengamati p = 0,04 , meskipun keduanya bisa disebut "signifikan" oleh konvensi standar bidang Anda ( α = 0,05 ). Tiny p -value berarti bukti yang lebih kuat terhadap nol (bagi mereka yang menyukai kerangka kerja pengujian hipotesis Fisher); itu berarti bahwa interval kepercayaan di sekitar ukuran efek akan mengecualikan nilai nol dengan margin yang lebih besar (bagi mereka yang lebih suka CIs untuk nilai- p ); itu berarti probabilitas posterior dari nol akan lebih kecil (untuk Bayesian dengan beberapa sebelumnya); ini semua setara dan berarti bahwa temuannya lebih meyakinkanp=1010p=0.04α=0,05pp. Lihat Apakah nilai p yang lebih kecil lebih meyakinkan? untuk diskusi lebih lanjut.

Istilah "sangat signifikan" tidak tepat dan tidak perlu. Ini adalah penilaian ahli subjektif, mirip dengan mengamati ukuran efek yang sangat besar dan menyebutnya "besar" (atau mungkin hanya "sangat besar"). Tidak ada yang salah dengan menggunakan deskripsi kualitatif dan subyektif dari data Anda, bahkan dalam penulisan ilmiah; asalkan tentu saja, bahwa analisis kuantitatif obyektif disajikan juga.


Lihat juga beberapa komentar luar biasa di atas, +1 ke @whuber, @Glen_b, dan @COOLSerdash.

amuba kata Reinstate Monica
sumber
2
Sepakat. Nilai- adalah indikator kuantitatif; oleh karena itu bicara seperti ini, walaupun tidak tepat di luar konteks, bukan ipso facto tidak valid, lebih dari mengatakan "Bill tinggi" dan "Fred benar-benar tinggi" adalah penggunaan bahasa Inggris yang tidak valid. Kita harus ingin melihat angka juga dan konteksnya, dll., Dll. Tidak ada yang menghentikan mereka yang ingin atau perlu membuat keputusan tajam pada P < 0,05 atau apa pun yang melakukan persis seperti yang mereka inginkan, tetapi preferensi mereka tidak mengesampingkan ini. PP<0,05
Nick Cox
Sama sekali tidak ceroboh. Ini didokumentasikan dengan baik sebagai memiliki definisi formal.
Burung hantu
3

Ini pertanyaan umum.

Pertanyaan serupa mungkin "Mengapa p <= 0,05 dianggap signifikan?" ( http://www.jerrydallal.com/LHSP/p05.htm )

@ Michael-Mayer memberikan satu bagian dari jawaban: signifikansi hanya satu bagian dari jawaban. Dengan data yang cukup, biasanya beberapa parameter akan muncul sebagai "signifikan" (lihat koreksi Bonferroni). Beberapa pengujian adalah masalah yang spesifik di genetika di mana penelitian besar mencari makna yang umum dan p-nilai <10 -8 sering diperlukan ( http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2621212/ ).

Juga, satu masalah dengan banyak analisis adalah bahwa mereka oportunistik dan tidak direncanakan sebelumnya (yaitu "Jika Anda cukup menyiksa data, alam akan selalu mengaku." - Ronald Coase).

Secara umum, jika analisis sudah direncanakan sebelumnya (dengan koreksi analisis berulang untuk kekuatan statistik), itu dapat dianggap signifikan. Seringkali, pengujian berulang oleh banyak individu atau kelompok adalah cara terbaik untuk mengonfirmasi bahwa sesuatu bekerja (atau tidak). Dan pengulangan hasil seringkali merupakan tes yang tepat untuk signifikansi.

Bill Denney
sumber
2

Tes adalah alat untuk keputusan hitam-putih, yaitu mencoba menjawab pertanyaan ya / tidak seperti 'apakah ada efek pengobatan yang benar?'. Seringkali, terutama jika kumpulan data besar, pertanyaan seperti itu cukup membuang sumber daya. Mengapa mengajukan pertanyaan biner jika memungkinkan untuk mendapatkan jawaban atas pertanyaan kuantitatif seperti 'seberapa besar efek pengobatan yang sebenarnya?' yang secara implisit menjawab juga pertanyaan ya / tidak? Jadi, alih-alih menjawab pertanyaan ya / tidak informatif dengan kepastian tinggi, kami sering merekomendasikan penggunaan interval kepercayaan yang berisi lebih banyak informasi.

Michael M.
sumber
2
+1 Meskipun Anda mungkin lebih eksplisit tentang bagaimana ini menjawab pertanyaan OP (tidak terlalu jelas).
@ Matius: Saya sepenuhnya setuju.
Michael M
Terima kasih Michael. Tapi saya kira interval kepercayaan (yang memberikan jawaban "skala berkelanjutan") akan merujuk pada ukuran efek, bukan? Meski begitu, bukankah ada kebutuhan untuk jawaban biner juga untuk melengkapi jawaban kontinu, yaitu apakah efek ini (yang ukurannya dijelaskan oleh CI) memenuhi tingkat α yang disepakati? Atau mungkin Anda bahkan bisa memberikan CI untuk nilai-p itu sendiri?
z8080
(A) "Ukuran efek" biasanya mengacu pada versi standar dari efek pengobatan dan karenanya lebih mudah untuk diinterpretasikan daripada efek itu sendiri. (B) CI untuk nilai p terkadang ditambahkan untuk nilai p yang disimulasikan untuk mengekspresikan ketidakpastian simulasi. (C) Jika level Anda adalah 0,05, maka di hampir setiap situasi tes, keputusan hitam / putih dari tes dapat diturunkan dengan melihat 95% ci yang sesuai.
Michael M
(lanjutan) Pertanyaan Anda entah bagaimana terkait dengan yang berikut: Apakah lebih berguna untuk menyatakan bahwa bahkan 99,9999% ci tidak kompatibel dengan nol atau bahkan batas bawah dari 95% ci untuk efek sebenarnya sangat menjanjikan?
Michael M