Apakah nilai p yang lebih kecil lebih meyakinkan?

31

Saya telah membaca tentang nilai- , tingkat kesalahan tipe 1, tingkat signifikansi, perhitungan daya, ukuran efek dan perdebatan Fisher vs Neyman-Pearson. Ini membuat saya agak kewalahan. Saya minta maaf untuk dinding teks, tetapi saya merasa perlu untuk memberikan gambaran tentang pemahaman saya saat ini tentang konsep-konsep ini, sebelum saya pindah ke pertanyaan saya yang sebenarnya.p


Dari apa yang telah saya kumpulkan, nilai hanyalah ukuran kejutan, probabilitas untuk mendapatkan hasil setidaknya sama ekstrimnya, mengingat bahwa hipotesis nol itu benar. Fisher awalnya dimaksudkan untuk itu menjadi tindakan berkelanjutan.p

Dalam kerangka kerja Neyman-Pearson, Anda memilih tingkat signifikansi di muka dan menggunakan ini sebagai titik batas (arbitrer). Level signifikansi sama dengan tingkat kesalahan tipe 1. Ini didefinisikan oleh frekuensi jangka panjang, yaitu jika Anda mengulangi percobaan 1000 kali dan hipotesis nol benar, sekitar 50 dari eksperimen tersebut akan menghasilkan efek yang signifikan , karena variabilitas pengambilan sampel. Dengan memilih level signifikansi, kita menjaga diri kita dari positif palsu ini dengan probabilitas tertentu. secara tradisional tidak muncul dalam kerangka kerja ini.P

Jika kita menemukan nilai p -0,01 ini tidak berarti bahwa tingkat kesalahan tipe 1 adalah 0,01, kesalahan tipe 1 dinyatakan sebagai apriori. Saya percaya ini adalah salah satu argumen utama dalam perdebatan Fisher vs NP, karena nilai- p sering dilaporkan sebagai 0,05 *, 0,01 **, 0,001 ***. Ini bisa menyesatkan orang untuk mengatakan bahwa efeknya signifikan pada nilai- p tertentu p, bukan pada nilai signifikansi tertentu.

Saya juga menyadari bahwa nilai- p adalah fungsi dari ukuran sampel. Oleh karena itu, itu tidak dapat digunakan sebagai pengukuran absolut. Nilai p yang kecil pdapat menunjukkan efek kecil yang tidak relevan dalam percobaan sampel besar. Untuk mengatasi ini, penting untuk melakukan perhitungan ukuran daya / efek ketika menentukan ukuran sampel untuk percobaan Anda. P memberi tahu kita apakah ada efek, bukan seberapa besar efeknya. Lihat Sullivan 2012 .

Pertanyaan saya: Bagaimana saya bisa merekonsiliasi fakta bahwa nilai- p adalah ukuran kejutan (lebih kecil = lebih meyakinkan) sementara pada saat yang sama itu tidak dapat dilihat sebagai pengukuran absolut?

Yang saya bingung, adalah yang berikut: bisakah kita lebih percaya diri dalam nilai- p kecil pdaripada yang besar? Dalam pengertian Nelayan, saya akan mengatakan ya, kami lebih terkejut. Dalam kerangka NP, memilih tingkat signifikansi yang lebih kecil akan menyiratkan kita menjaga diri kita lebih kuat terhadap positif palsu.

Tetapi di sisi lain, nilai p bergantung pada ukuran sampel. Mereka bukan ukuran absolut. Jadi kita tidak bisa mengatakan 0,001593 lebih signifikan dari 0,0439. Namun ini yang akan tersirat dalam kerangka kerja Fisher: kita akan lebih terkejut dengan nilai ekstrem seperti itu. Bahkan ada diskusi tentang istilah yang sangat signifikan sebagai istilah yang keliru: Apakah salah menyebut hasil sebagai "sangat penting"?

Saya pernah mendengar bahwa nilai dalam beberapa bidang ilmu pengetahuan hanya dianggap penting ketika mereka lebih kecil dari 0,0001, sedangkan di bidang lain nilai sekitar 0,01 sudah dianggap sangat signifikan.p

Pertanyaan-pertanyaan Terkait:

Zenit
sumber
Juga, jangan lupa bahwa nilai p "signifikan" tidak memberi tahu Anda apa pun tentang teori Anda. Ini bahkan diakui oleh para pembela yang paling bersemangat: Precis dari signifikansi Statistik: Rasional, validitas, dan utilitas. Siu L. Chow. ILMU PERILAKU DAN OTAK (1998) 21, 169-239 Data ditafsirkan ketika diubah menjadi bukti. Asumsi penafsiran didasarkan pada kebutuhan untuk disebutkan dan kemudian, jika mungkin, diperiksa. Apa yang diukur?
Livid
2
+1, tetapi saya akan mendorong Anda untuk memfokuskan pertanyaan dan menghapus pertanyaan samping. Jika Anda tertarik mengapa beberapa orang berpendapat bahwa interval kepercayaan lebih baik daripada nilai-p, ajukan pertanyaan terpisah (tapi pastikan belum pernah ditanyakan sebelumnya).
Amoeba berkata Reinstate Monica
3
Selain itu, bagaimana pertanyaan Anda bukan duplikat dari Mengapa nilai-p lebih rendah tidak lebih banyak bukti terhadap nol? Pernahkah Anda melihat utas itu? Mungkin Anda bisa menambahkannya ke daftar di akhir posting Anda. Lihat juga pertanyaan serupa Apa artinya membandingkan nilai-p satu sama lain? , tapi saya enggan merekomendasikan utas itu, karena jawaban yang diterima ada IMHO salah / menyesatkan (lihat diskusi di komentar).
Amoeba berkata Reinstate Monica
2
Gelman memiliki banyak relevansi untuk dikatakan tentang nilai-p. misalnya 1. di sini (Gelman dan Stern, Am.Stat. 2006 pdf) , 2. di sini di blog-nya , 3. blognya lagi dan mungkin juga 4. di sini (Gelman, 2013 menerbitkan komentar di kertas lain, pdf)
Glen_b - Pasang kembali Monica
2
Terima kasih atas tautannya, @Glen_b; Saya tahu makalah Gelman & Stern dengan baik dan sering merujuknya sendiri, tetapi belum pernah melihat makalah 2013 ini atau diskusi sebelumnya. Namun, saya ingin mengingatkan OP tentang menafsirkan Gelman & Stern dalam konteks pertanyaannya. G&S menawarkan contoh yang bagus dengan dua studi yang memperkirakan efek dan ; dalam satu kasus , dalam lain , tetapi perbedaan antara perkiraan tidak signifikan. Ini penting untuk diingat, tetapi jika sekarang, setelah OP, kami bertanya apakah studi pertama lebih meyakinkan, saya pasti akan mengatakan ya. 25±1010±10p<0.01p>0.05
Amoeba mengatakan Reinstate Monica

Jawaban:

18

Apakah nilai lebih kecil "lebih meyakinkan"? Ya tentu saja.p

Dalam kerangka kerja Fisher, nilai adalah kuantifikasi jumlah bukti terhadap hipotesis nol. Bukti bisa lebih atau kurang meyakinkan; semakin kecil nilai p , semakin meyakinkan. Perhatikan bahwa dalam setiap percobaan yang diberikan dengan ukuran sampel n tetap , nilai- p secara monoton terkait dengan ukuran efek, seperti yang ditunjukkan oleh @Scortchi dalam jawabannya (+1). Jadi nilai p yang lebih kecil sesuai dengan ukuran efek yang lebih besar; tentu saja mereka lebih meyakinkan!ppnpp

Dalam kerangka kerja Neyman-Pearson, tujuannya adalah untuk mendapatkan keputusan biner: apakah buktinya "signifikan" atau tidak. Dengan memilih ambang , kami menjamin bahwa kami tidak akan memiliki lebih dari α positif palsu. Perhatikan bahwa orang yang berbeda dapat memiliki α yang berbeda dalam pikiran ketika melihat data yang sama; mungkin ketika saya membaca makalah dari bidang yang saya skeptis tentang, saya pribadi tidak akan menganggap sebagai hasil "signifikan" dengan misalnya p = 0,03 meskipun penulis menyebutnya sebagai signifikan. Α pribadi saya mungkin disetel ke atau apalah. Jelas menurunkan dilaporkanαααp=0.03α0.001p-Nilai, semakin skeptis pembaca akan dapat meyakinkan! Karenanya, sekali lagi, nilai- lebih rendah lebih meyakinkan.p

Praktik standar saat ini adalah menggabungkan pendekatan Fisher dan Neyman-Pearson: jika , maka hasilnya disebut "signifikan" dan nilai- [dilaporkan dengan tepat atau kurang-lebih] dan digunakan sebagai ukuran tingkat keyakinan (dengan menandai dengan bintang, menggunakan ekspresi sebagai "sangat signifikan", dll.); jika , maka hasilnya disebut "tidak signifikan" dan hanya itu.p<αpp>α

Ini biasanya disebut sebagai "pendekatan hybrid", dan memang itu adalah hybrid. Beberapa orang berpendapat bahwa hibrida ini tidak koheren; Saya cenderung tidak setuju. Mengapa tidak valid untuk melakukan dua hal yang valid sekaligus?

Bacaan lebih lanjut:

amuba kata Reinstate Monica
sumber
1
(+1) Tetapi lihat Bagian 4.4 dari makalah Michael Lew: beberapa lebih suka menyamakan jumlah bukti dengan kemungkinan daripada dengan nilai-p, yang membuat perbedaan ketika nilai-p dari percobaan dengan ruang sampel yang berbeda dibandingkan. Jadi mereka berbicara tentang "pengindeksan" atau "kalibrasi" bukti / kemungkinan.
Scortchi
Maaf, saya bermaksud mengatakan, lebih tepatnya, bahwa, dalam pandangan ini, "bukti" relatif (atau "dukungan") relatif untuk nilai yang berbeda yang dapat diambil parameter adalah rasio fungsi kemungkinannya yang dievaluasi untuk data yang diamati. Jadi dalam contoh Lew, satu kepala dari enam kali lemparan adalah bukti yang sama terhadap hipotesis nol, terlepas dari apakah skema pengambilan sampel adalah binomial atau binomial negatif; namun nilai-p berbeda - Anda mungkin mengatakan bahwa di bawah satu skema pengambilan sampel Anda cenderung mengumpulkan lebih banyak bukti terhadap nol. (Tentu saja hak atas kata "bukti", seperti halnya "signifikan", ...
Scortchi - Reinstate Monica
... belum mapan.)
Scortchi - Reinstate Monica
Hmmm, terima kasih banyak telah menarik perhatian saya ke bagian ini; Saya membacanya sebelumnya tetapi ternyata tidak ada artinya. Saya harus mengatakan bahwa saat ini saya bingung karenanya. Lew menulis bahwa nilai-p tidak boleh "disesuaikan" dengan memperhitungkan aturan penghentian; tapi saya tidak melihat penyesuaian dalam rumus 5-6. Akan seperti apa nilai-p "tidak disesuaikan"?
Amuba mengatakan Reinstate Monica
1
@Scortchi: Hmmm. Saya benar-benar tidak mengerti mengapa salah satu dari nilai-p ini "disesuaikan" dan yang lainnya tidak; mengapa tidak sebaliknya? Saya sama sekali tidak yakin dengan argumen Lew di sini, dan saya bahkan tidak sepenuhnya memahaminya. Berpikir tentang itu, saya menemukan pertanyaan Lew dari 2012 tentang prinsip kemungkinan dan nilai-p, dan memposting jawaban di sana. Intinya adalah bahwa seseorang tidak perlu aturan penghentian yang berbeda untuk mendapatkan nilai p yang berbeda; seseorang hanya dapat mempertimbangkan statistik uji yang berbeda. Mungkin kita bisa terus berdiskusi di sana, saya sangat menghargai masukan Anda.
Amoeba berkata Reinstate Monica
9

Saya tidak tahu apa yang dimaksud dengan nilai-p yang lebih kecil menjadi "lebih baik", atau oleh kami "lebih percaya diri" pada mereka. Tetapi mengenai nilai-p sebagai ukuran seberapa terkejutnya kita dengan data, jika kita percaya hipotesis nol, tampaknya cukup masuk akal; nilai p adalah fungsi monoton statistik uji yang Anda pilihuntuk mengukur perbedaan dengan hipotesis nol ke arah yang Anda minati, mengkalibasinya sehubungan dengan propertinya di bawah prosedur pengambilan sampel yang relevan dari suatu populasi atau penetapan acak dari perawatan eksperimental. "Signifikansi" telah menjadi istilah teknis untuk merujuk pada nilai-p 'baik di atas atau di bawah beberapa nilai yang ditentukan; sehingga bahkan mereka yang tidak berminat menentukan tingkat signifikansi & menerima atau menolak hipotesis cenderung menghindari frasa seperti "sangat signifikan" - kepatuhan terhadap konvensi.

Mengenai ketergantungan nilai-p pada ukuran sampel & ukuran efek, mungkin beberapa kebingungan muncul karena misalnya mungkin terlihat bahwa 474 head dari 1000 kali lemparan seharusnya tidak terlalu mengejutkan daripada 2 dari 10 untuk seseorang yang berpikir bahwa koin itu adil — bagaimanapun juga. proporsi sampel hanya menyimpang sedikit dari 50% dalam kasus sebelumnya — namun nilai-p hampir sama. Tapi benar atau salah jangan mengakui derajat; p-value melakukan apa yang diminta darinya: sering kali interval kepercayaan untuk suatu parameter benar-benar ingin menilai seberapa tepatnya efek diukur, & kepentingan praktis atau teoretis dari besarnya estimasi.

Scortchi - Reinstate Monica
sumber
1
p=0.04p=0.000004
1

Terima kasih atas komentar dan bacaan yang disarankan. Saya memiliki lebih banyak waktu untuk merenungkan masalah ini dan saya yakin saya telah berhasil mengisolasi sumber kebingungan utama saya.

  • Awalnya saya pikir ada dikotomi antara melihat nilai-p sebagai ukuran kejutan versus menyatakan bahwa itu bukan ukuran absolut. Sekarang saya menyadari pernyataan ini tidak selalu saling bertentangan. Yang pertama memungkinkan kita untuk lebih atau kurang percaya diri dalam ekstremeness (bahkan ketidaksamaan?) Dari efek yang diamati, dibandingkan dengan hasil hipotesis lain dari percobaan yang sama. Sedangkan yang terakhir hanya memberi tahu kita bahwa apa yang dianggap sebagai nilai-p yang meyakinkan dalam satu percobaan, mungkin tidak mengesankan sama sekali dalam eksperimen lain, misalnya jika ukuran sampel berbeda.

  • Fakta bahwa beberapa bidang ilmu menggunakan dasar yang berbeda dari nilai-p yang kuat, dapat menjadi cerminan dari perbedaan ukuran sampel umum (astronomi, klinis, eksperimen psikologis) dan / atau upaya untuk menyampaikan ukuran efek dalam p- nilai. Tapi yang terakhir adalah penggabungan yang salah dari keduanya.

  • Signifikansi adalah pertanyaan ya / tidak berdasarkan alfa yang dipilih sebelum percobaan. Nilai p karena itu tidak bisa lebih signifikan daripada yang lain, karena mereka lebih kecil atau lebih besar dari tingkat signifikansi yang dipilih. Di sisi lain, nilai p yang lebih kecil akan lebih meyakinkan daripada nilai yang lebih besar (untuk ukuran sampel / percobaan yang serupa, seperti yang disebutkan dalam poin pertama saya).

  • Interval kepercayaan secara inheren menyampaikan ukuran efek, menjadikannya pilihan yang bagus untuk menjaga terhadap masalah yang disebutkan di atas.

Zenit
sumber
0

Nilai-p tidak bisa menjadi ukuran kejutan karena itu hanya ukuran probabilitas ketika nol benar. Jika nol adalah benar maka setiap nilai p yang mungkin sama kemungkinannya. Orang tidak dapat terkejut dengan nilai p apa pun sebelum memutuskan untuk menolak nol. Begitu seseorang memutuskan ada efek maka makna nilai-p menghilang. Seseorang hanya melaporkannya sebagai tautan dalam rantai induktif yang relatif lemah untuk membenarkan penolakan, atau tidak, dari nol. Tetapi jika ditolak sebenarnya tidak ada artinya lagi.

John
sumber
Memberi +1 untuk fakta "ketika nol adalah benar maka setiap nilai-p sama-sama kemungkinan '' namun, saya pikir ini hanya berlaku untuk variabel acak kontinu?
Perhatikan bahwa saya katakan, setiap nilai "mungkin" dari p kemungkinan sama. Jadi ini berlaku untuk variabel bijaksana atau kontinu. Dengan variabel diskrit, jumlah nilai yang mungkin lebih rendah.
John
H0
Saya percaya jawaban utama menunjukkan bahwa ini bukan masalah. Alasan bahwa distribusi terlihat tidak seragam adalah karena nilai-p yang mungkin berjarak tidak sama. Glenn bahkan menyebutnya seragam semu. Saya kira itu mungkin bahwa dengan beberapa tes yang sangat jarang dari data binomial dengan Ns kecil maka mungkin probabilitas nilai-p tertentu tidak sama tetapi jika Anda mempertimbangkan probabilitas nilai-p dalam rentang yang diberikan akan lebih dekat ke seragam.
John
1
H0:μ=0.5p=0.0000000004H0:μ=0.45p=0.0000000001μ=0.45