Cumming (2008) mengklaim bahwa distribusi nilai-p yang diperoleh dalam replikasi hanya bergantung pada nilai-p yang asli. Bagaimana itu bisa benar?

52

Saya telah membaca paper Replikasi dan Interval pp Geoff Cumming 2008 : nilai p memprediksi masa depan hanya samar-samar, tetapi interval kepercayaan jauh lebih baik [~ 200 kutipan dalam Google Cendekia] - dan saya bingung dengan salah satu klaim utamanya. Ini adalah salah satu dari serangkaian makalah di mana Cumming menentang nilai- p dan mendukung interval kepercayaan; pertanyaan saya, bagaimanapun, bukan tentang perdebatan ini dan hanya menyangkut satu klaim spesifik tentang nilai- p .

Biarkan saya kutip dari abstrak:

Artikel ini menunjukkan bahwa, jika hasil percobaan awal dalam dua ekor , ada 80 % kesempatan satu-tailed p -nilai dari replikasi akan jatuh dalam interval ( 0,00008 , 0,44 ) , seorang 10 % kemungkinan p < 0,00008 , dan sepenuhnya peluang 10 % p > 0,44 . Hebatnya, interval — disebut interval p — adalah selebar ini seberapa besar ukuran sampelnya.p=.0580%p(.00008,.44)10%p<.0000810%p>.44p

Cumming klaim bahwa " interval", dan bahkan seluruh distribusi p -values yang satu akan mendapatkan ketika mereplikasi percobaan asli (dengan ukuran sampel tetap sama), tergantung hanya pada asli p -nilai p o b t dan tidak tergantung pada ukuran efek sebenarnya, kekuatan, ukuran sampel, atau apa pun:ppppobt

[...] distribusi probabilitas p dapat diturunkan tanpa mengetahui atau mengasumsikan nilai untuk δ (atau daya). [...] Kami tidak menganggap pengetahuan sebelumnya tentang δ , dan kami hanya menggunakan informasi Mdiff [diamati perbedaan antara kelompok] memberikan sekitar δ sebagai dasar perhitungan untuk diberikan pobt dari distribusi p dan interval p .

Cumming 2008

Saya bingung dengan ini karena bagi saya tampaknya bahwa distribusi -values sangat tergantung pada listrik, sedangkan aslinya p o b t sendiri tidak memberikan informasi apapun tentang hal itu. Mungkin ukuran efek sebenarnya adalah δ = 0 dan kemudian distribusinya seragam; atau mungkin ukuran efek sebenarnya sangat besar dan kemudian kita harus mengharapkan sebagian besar nilai- p yang sangat kecil . Tentu saja seseorang dapat mulai dengan mengasumsikan beberapa sebelumnya lebih dari ukuran efek yang mungkin dan mengintegrasikannya, tetapi Cumming tampaknya mengklaim bahwa ini bukan apa yang dia lakukan.ppobtδ=0p

Pertanyaan: Apa yang sebenarnya terjadi di sini?


Perhatikan bahwa topik ini terkait dengan pertanyaan ini: Apa fraksi percobaan ulang yang akan memiliki ukuran efek dalam interval kepercayaan 95% dari percobaan pertama? dengan jawaban yang sangat baik oleh @whuber. Cumming memiliki makalah tentang topik ini untuk: Cumming & Maillardet, 2006, Interval Keyakinan dan Replikasi: Di ​​Mana Akan Berarti Jatuh Berikutnya? - tetapi yang jelas dan tidak bermasalah.

Saya juga mencatat bahwa klaim Cumming diulang beberapa kali dalam makalah Nature Methods 2015 Nilai P berubah-ubah menghasilkan hasilP yang tidak dapat direproduksi yang mungkin telah Anda temui (mungkin sudah ada ~ 100 kutipan di Google Cendekia):

[...] akan ada variasi substansial dalam nilai percobaan berulang. Pada kenyataannya, percobaan jarang diulang; kita tidak tahu seberapa berbedanya P selanjutnya . Tetapi kemungkinan itu bisa sangat berbeda. Misalnya, terlepas dari kekuatan statistik percobaan, jika satu ulangan mengembalikan nilai P 0,05 , ada peluang 80 % bahwa percobaan berulang akan mengembalikan nilai P antara 0 dan 0,44 (dan perubahan 20 % [sic ] bahwa P akan lebih besar).PPP0.0580%P00.4420%P

(Catat, omong-omong, bagaimana, terlepas dari apakah pernyataan Cumming benar atau tidak, makalah Nature Methods mengutipnya dengan tidak akurat: menurut Cumming, kemungkinannya hanya atas 0,44 . Dan ya, makalah itu mengatakan "20% chan g e ". Pfff.)10%0.44

amuba kata Reinstate Monica
sumber
8
Tidakkah segala bentuk klaim seperti ini harus bersyarat pada asumsi kondisi alam - dan bukankah itu secara default menjadi hipotesis nol? Untuk hipotesis nol sederhana dan statistik yang didistribusikan secara kontinu , nilai-p memiliki distribusi yang seragam. Segalanya mengalir dari fakta itu.
whuber
4
@whuber Yah, distribusi yang ditunjukkan pada Gambar 5 yang saya buat di sini jelas tidak seragam. Saya setuju bahwa distribusi semacam itu, tampaknya, harus bersyarat pada keadaan alami, tetapi Cumming tampaknya mengklaim sebaliknya. Maka pertanyaan saya: apa yang sebenarnya terjadi dalam makalah ini? Apakah saya salah memahami klaim? Apakah kertas itu salah? Bisakah kita mencari tahu beberapa asumsi tersembunyi? Dll
amuba mengatakan Reinstate Monica
Catatan untuk saya sendiri: arxiv.org/abs/1609.01664 ini tampaknya terkait tetapi pandangan sekilas tidak menyelesaikan kebingungan saya.
Amuba mengatakan Reinstate Monica
1
Saya berharap saya tidak memberikan final minggu ini atau saya akan meluangkan waktu untuk itu. Tidak masuk akal bahwa nilai p selanjutnya harus bergantung pada daya, asalkan kedua ukuran sampel sama. Nilai p yang diobservasi harus bergantung hanya pada nilai sebenarnya dari suatu parameter dan pilihan Anda dari nol. Kegunaan estimasi tergantung pada kekuatan, tapi itu bukan pertanyaan di sini.
Dave Harris
3
z=Δx¯σN2Nz,1z=ΔμσN2=0

Jawaban:

21

zμθ

Saya percaya mungkin ada pendekatan gaya Bayesian untuk mendapatkan persamaan yang diberikan dalam lampiran B.

zNθ,1θθH0=0

z^θNθ,1θ1θz^Nz^,1θz^zz^Nz^,2. (Perbedaan dua kali lipat karena konvolusi Gaussians.)

12


Diskusi

Bagaimana hasil ini dapat direkonsiliasi dengan kerangka kerja pengujian hipotesis nol standar? Salah satu interpretasi yang mungkin adalah sebagai berikut.

θ=0θN0,λ2λ2

θN0,λ2θz^Nδ2z^,δ2,zz^Nδ2z^,1+δ2,δ211+λ2[0,1]
λλ0θz^N0,0zz^N0,1pz^U0,1.

(Untuk studi berulang, di atas menunjukkan pertanyaan yang menarik di sini tentang implikasi untuk pembaruan Bayesian vs metode "tradisional" untuk meta-analisis. Namun, saya benar-benar tidak tahu tentang masalah meta-analisis!)


Lampiran

Seperti yang diminta dalam komentar, berikut adalah plot untuk perbandingan. Ini adalah aplikasi formula yang relatif mudah di koran. Namun saya akan menulis ini untuk memastikan tidak ada ambiguitas.

pzF[u]Pr[puz^]

F[p]=1Φ[12(z[p]z^)],z[p]=Φ1[1p]
Φ[]
f[p]F[p]=ϕ[(zz^)/2]2ϕ[z]
ϕ[]z=z[p]p^nilai p dua sisi yang diamati sesuai dengan , maka kita memiliki z^
z^=Φ1[1p^2]

Menggunakan persamaan-persamaan ini memberikan angka di bawah ini, yang harus sebanding dengan angka kertas 5 yang dikutip dalam pertanyaan. "Reproduksi" dari Cumming (2008) Gambar. 5 melalui formula yang diposting.

(Ini diproduksi oleh kode Matlab berikut; jalankan di sini .)

phat2=[1e-3,1e-2,5e-2,0.2]'; zhat=norminv(1-phat2/2);
np=1e3+1; p1=(1:np)/(np+1); z=norminv(1-p1);
p1pdf=normpdf((z-zhat)/sqrt(2))./(sqrt(2)*normpdf(z));
plot(p1,p1pdf,'LineWidth',1); axis([0,1,0,6]);
xlabel('p'); ylabel('PDF p|p_{obs}');
legend(arrayfun(@(p)sprintf('p_{obs} = %g',p),phat2,'uni',0));
GeoMatt22
sumber
1
Harapan saya adalah dengan mengekspos asumsi yang mendasarinya (misalnya seragam sebelum parameter tersembunyi), diskusi sekarang dapat fokus pada pertanyaan ilmiah / statistik yang saya percaya adalah target Anda! (Daripada soal matematika / probabilitas yang saya jawab di atas.)
GeoMatt22
Saya menemukan beberapa diskusi lama dan tidak terlalu lama tentang topik ini: Goodman 1992 , komentar tentang Goodman oleh Senn 2002 , dan Lazzeroni et al 2014 baru-baru ini . Yang terakhir tampaknya agak tidak membantu (tapi saya sebutkan untuk kelengkapan) tetapi dua yang pertama, terutama komentar Senn, tampak sangat relevan.
Amoeba berkata Reinstate Monica
amuba terima kasih telah menggali referensi ini, mereka terlihat menarik! Untuk kelengkapan, saya menambahkan bagian "diskusi" yang mencoba menghubungkan hasil Cumming dan kerangka kerja standar.
GeoMatt22
Pembaruan: Saya membaca makalah Goodman dan Senn yang ditautkan di atas dan sekarang telah memposting jawaban saya sendiri untuk merangkum intuisi saya saat ini. (Omong-omong, saya senang menerima jawaban Anda dan menghadiahkannya hadiah. Terima kasih lagi.)
Amuba mengatakan Reinstate Monica
27

Terima kasih untuk semua diskusi menarik! Saat menulis artikel 2008 itu, perlu beberapa saat untuk meyakinkan diri saya bahwa distribusi replikasi p (nilai p yang diberikan oleh replikasi studi yang tepat, artinya studi yang persis sama, tetapi dengan sampel baru) tergantung hanya pada p yang diberikan oleh studi asli. (Dalam makalah saya mengasumsikan populasi yang terdistribusi normal dan pengambilan sampel acak, dan bahwa penelitian kami bertujuan untuk memperkirakan rata-rata populasi.) Oleh karena itu interval p (interval prediksi 80% untuk replikasi p ) adalah sama, apa pun N , kekuatan, atau ukuran efek sebenarnya dari studi asli.

Tentu, itu awalnya tidak bisa dipercaya. Tetapi perhatikan baik-baik bahwa pernyataan asli saya didasarkan pada pengetahuan p dari studi asli. Pikirkan seperti ini. Misalkan Anda memberi tahu saya bahwa studi awal Anda telah menemukan p = 0,05. Anda tidak memberi tahu saya hal lain tentang penelitian ini. Saya tahu bahwa 95% CI pada mean sampel Anda meluas hingga nol (dengan asumsi p dihitung untuk hipotesis nol nol). Jadi rerata sampel Anda adalah MoE (panjang satu lengan dari 95% CI), karena jaraknya dari nol. Distribusi pengambilan sampel rata-rata dari studi seperti studi Anda memiliki standar deviasi MoE / 1.96. Itu kesalahan standar.

Pertimbangkan rata-rata yang diberikan oleh replikasi yang tepat. Distribusi rata-rata replikasi memiliki MoE berarti, yaitu distribusi yang berpusat pada mean sampel asli Anda. Pertimbangkan perbedaan antara mean sampel Anda dan rata-rata replikasi. Ini memiliki varians yang sama dengan jumlah varians dari rata-rata studi seperti studi asli Anda, dan replikasi. Itu dua kali varian studi seperti studi awal Anda, yaitu 2 x SE ^ 2. Yaitu 2 x (MoE / 1.96) ^ 2. Jadi SD perbedaannya adalah SQRT (2) x MoE / 1.96.

Karena itu kami tahu distribusi rata-rata replikasi: artinya adalah MoE dan SD-nya adalah SQRT (2) x MoE / 1.96. Tentu, skala horizontal adalah arbitrer, tetapi kita hanya perlu mengetahui distribusi ini sehubungan dengan CI dari studi awal Anda. Ketika replikasi dijalankan, sebagian besar rata-rata (sekitar 83%) akan jatuh pada 95% CI asli itu, dan sekitar 8% akan jatuh di bawahnya (yaitu di bawah nol, jika rata-rata asli Anda adalah> 0) dan 8% lebih tinggi dari itu CI. Jika kami tahu di mana rata-rata replikasi berada dalam kaitannya dengan CI asli Anda, kami dapat menghitung nilai p -nya . Kami tahu distribusi cara replikasi seperti itu (terkait dengan CI Anda) sehingga kami dapat mengetahui distribusi replikasi halnilai. Satu-satunya asumsi yang kami buat tentang replikasi adalah bahwa itu tepat, yaitu berasal dari populasi yang sama, dengan ukuran efek yang sama, seperti studi awal Anda, dan bahwa N (dan desain eksperimental) sama dengan dalam studi Anda .

Semua hal di atas hanyalah ulangan dari argumen dalam artikel, tanpa gambar.

Masih informal, mungkin berguna untuk berpikir apa p = 0,05 dalam penelitian asli menyiratkan. Itu bisa berarti bahwa Anda memiliki studi besar dengan ukuran efek kecil, atau studi kecil dengan ukuran efek raksasa. Either way, jika Anda mengulangi studi itu ( N yang sama, populasi yang sama) maka Anda tidak diragukan lagi akan mendapatkan mean sampel yang agak berbeda. Ternyata, dalam hal nilai p , 'agak berbeda' adalah sama, apakah Anda memiliki studi besar atau kecil. Jadi, beri tahu saya hanya nilai p Anda dan saya akan memberi tahu Anda interval p Anda .

Geoff

Geoff Cumming
sumber
8
Terima kasih banyak telah mendaftar di situs web ini untuk menjawab pertanyaan saya! Saya sangat menghargai itu. Saya masih belum yakin tetapi saya akan meluangkan waktu untuk merenungkan jawaban Anda. Perasaan saya saat ini adalah bahwa Anda membuat poin yang valid, tetapi saya tidak setuju tentang bagaimana Anda merumuskannya. Satu keberatan sederhana: p = 0,05 konsisten dengan H0 yang benar. Jika H0 benar, p akan berada di kisaran 0,04-0,05 1% dari waktu. Jika demikian, distribusi nilai-p replikasi akan seragam dari 0 hingga 1. Tetapi Anda memperkirakan distribusi yang berbeda untuk p awal = 0,05 dalam semua keadaan . Bagaimana seharusnya orang memikirkannya?
Amoeba berkata Reinstate Monica
7
Asumsi implisit dalam argumen ini terlihat tidak bisa dipertahankan: itu adalah bahwa "replikasi persis" memiliki rata-rata sama dengan KLH. Jika dengan "replikasi tepat" yang kami maksudkan mengulangi percobaan dengan keadaan alam yang sama, maka distribusi statistik uji tidak diketahui: itu tergantung pada keadaan alamiah. Terlepas dari mengadopsi sudut pandang Bayesian - yang berarti Anda perlu secara eksplisit menyatakan prioritas Anda - tentang satu-satunya cara untuk membuat kemajuan adalah dengan menghitung probabilitas sebelum yang asli atau yang diulang dilakukan, tidak tergantung pada ulangan.
whuber
2
@ user43849 Saya akan, dengan segala hormat, menyampaikan bahwa orang seperti itu tidak mengerti apa nilai p. Nilai p mengatakan sedikit atau tidak sama sekali tentang percobaan di masa depan . Ada konsep frequentist interval prediksi yang berlaku langsung di sini: pertanyaan tentang replikasi hanya menyangkut interval prediksi untuk nilai p dari percobaan masa depan tunggal. Jawabannya didasarkan pada teori statistik klasik, tidak memerlukan konsep inovatif, dan (jelas) bukan orang Bayesian.
whuber
2
@whuber menggali kertas, saya percaya mungkin ada asumsi Bayesian implisit yang mendasari latihan (lihat jawaban saya).
GeoMatt22
1
@ GeMatt Ya, itu sepertinya satu-satunya cara untuk membenarkan perhitungan.
Whuber
10

Masalahnya telah diklarifikasi oleh @ GeoMatt22, dan saya senang melihat @GeoffCumming datang ke sini untuk berpartisipasi dalam diskusi. Saya memposting jawaban ini sebagai komentar lebih lanjut.


Ternyata, diskusi ini kembali setidaknya ke Goodman (1992) Sebuah komentar tentang replikasi, P-nilai dan bukti dan kemudian membalas Senn (2002) Surat kepada Editor . Saya sangat merekomendasikan untuk membaca dua artikel singkat ini, khususnya artikel Stephen Senn; Saya menemukan diri saya sepenuhnya setuju dengan Senn.

Jika saya telah membaca makalah ini sebelum mengajukan pertanyaan ini, kemungkinan besar saya tidak akan pernah mempostingnya. Goodman (tidak seperti Cumming) menyatakan dengan sangat jelas bahwa ia menganggap pengaturan Bayesian dengan flat sebelumnya. Dia tidak menyajikan distribusi nilai- seperti yang dilakukan Cumming, dan sebagai gantinya melaporkan probabilitas mengamati hasil "signifikan" dalam percobaan replikasi:pp<0.05

Goodman 1992

Poin utamanya adalah bahwa probabilitas ini sangat rendah (bahkan untuk hanya ). Khususnya, untuk hanya . ( Kemungkinan terakhir ini tetap sama untuk dan .)0,78 p = 0,05 0,5 1 / 2 α p = αp=0.0010.78p=0.050.51/2αp=α

Inti dari jawaban Senn adalah bahwa ini adalah pengamatan yang berguna yang, bagaimanapun, tidak merusak nilai dengan cara apapun dan tidak , bertentangan dengan Goodman, berarti bahwa nilai "melebih-lebihkan bukti terhadap nol". Dia menulis:ppp

Saya juga menganggap bahwa demonstrasi [Goodman] -nya berguna karena dua alasan. Pertama, ini berfungsi sebagai peringatan bagi siapa pun yang merencanakan penelitian serupa yang lebih jauh dengan yang baru saja selesai (dan yang memiliki hasil signifikan secara marginal) bahwa ini mungkin tidak cocok dengan studi kedua. Kedua, ini berfungsi sebagai peringatan bahwa ketidakkonsistenan yang tampak dalam hasil dari studi individu dapat diharapkan umum dan bahwa seseorang tidak boleh bereaksi berlebihan terhadap fenomena ini.

Senn mengingatkan kita bahwa nilai satu sisi dapat dipahami sebagai probabilitas posterior Bayesian dari bawah flat sebelum (tidak patut sebelum pada seluruh garis nyata) [lihat Marsman & Wagenmakers 2016 untuk diskusi singkat fakta ini dan beberapa kutipan] .H 0 : μ < 0 μpH0:μ<0μ

Jika demikian, maka setelah memperoleh setiap tertentu -nilai dalam satu percobaan, probabilitas bahwa percobaan berikutnya akan menghasilkan lebih rendah -nilai memiliki menjadi ; jika tidak, replikasi di masa depan bisa memberikan bukti tambahan sebelum dilakukan. Jadi masuk akal total bahwa untuk Goodman diperoleh probabilitas . Dan memang, semua distribusi replikasi yang dihitung oleh Cumming dan @ GeoMatt22 memiliki median di masing-masing .p 1 / 2 p = 0,05 0,5 p o b sp p1/2p=0.050.5pobs

Kami tidak, bagaimanapun, membutuhkan probabilitas replikasi ini lebih tinggi dari untuk percaya bahwa kemanjuran pengobatan mungkin terjadi. Serangkaian uji coba yang panjang, persen di antaranya signifikan pada tingkat persen, akan menjadi bukti yang meyakinkan bahwa pengobatan itu efektif.50 50.5505

Secara kebetulan, siapa pun yang melihat distribusi prediktif nilai- untuk, katakanlah, uji-t dari ukuran dan kekuatan yang diberikan ( lihat misalnya di sini ) tidak akan terkejut bahwa membutuhkan median pada tentu akan membuat distribusi ini cukup luas , dengan ekor gemuk menuju . Dalam hal ini, interval luas yang dilaporkan oleh Cumming tidak lagi mengejutkan.p = 0,05 1pp=0.051

Apa yang mereka suka lakukan menyarankan, adalah bahwa orang harus menggunakan ukuran sampel yang lebih besar ketika mencoba untuk meniru percobaan; dan memang, ini adalah rekomendasi standar untuk studi replikasi (misalnya Uri Simonsohn menyarankan , sebagai aturan praktis, untuk meningkatkan ukuran sampel kali lipat).2.5

amuba kata Reinstate Monica
sumber
5
(+1) Untungnya , Anda tidak terjadi pada Goodman atau Senn sampai Anda melakukannya. :-)
kardinal
6

Terima kasih semuanya atas diskusi yang menarik. Daripada memberikan komentar saya, poin demi poin, saya akan menawarkan beberapa refleksi umum.

Bayes. Saya sama sekali tidak menentang pendekatan Bayesian. Dari awal saya sudah menduga bahwa analisis Bayesian, dengan asumsi flat atau difus sebelumnya, akan memberikan interval prediksi yang sama atau sangat mirip. Ada paragraf di hlm. 291 dalam artikel 2008 tentang itu, sebagian diminta oleh salah satu pengulas. Jadi saya senang melihat, di atas, penyelesaian dari pendekatan itu. Itu bagus, tetapi pendekatan yang sangat berbeda dari yang saya ambil.

Sebagai tambahan, saya telah memilih untuk bekerja pada advokasi interval kepercayaan (statistik baru: ukuran efek, CI, meta-analisis) daripada pendekatan Bayesian untuk estimasi (berdasarkan interval yang kredibel) karena saya tidak tahu bagaimana menjelaskan Bayesian mendekati pemula cukup baik. Saya belum melihat buku teks Bayesian yang benar-benar perkenalan yang saya rasa bisa saya gunakan dengan pemula, atau yang mungkin bisa diakses dan meyakinkan oleh banyak peneliti. Oleh karena itu, kita perlu mencari di tempat lain jika kita ingin memiliki kesempatan yang layak untuk meningkatkan cara peneliti melakukan inferensi statistik mereka. Ya, kita harus bergerak melampaui halnilai-nilai, dan bergeser dari pengambilan keputusan dikotomis ke estimasi, dan Bayesians dapat melakukan itu. Tetapi jauh lebih mungkin untuk mencapai perubahan praktis, imho, adalah pendekatan CI konvensional. Itu sebabnya buku teks statistik intro kami, baru-baru ini dirilis, mengambil pendekatan statistik baru. Lihat www.thenewstatistics.com

Kembali ke refleksi. Pusat analisis saya adalah apa yang saya maksud dengan hanya mengetahui nilai p dari studi pertama. Asumsi yang saya buat dinyatakan (populasi normal, pengambilan sampel acak, populasi yang diketahui SD sehingga kita dapat menggunakan perhitungan z daripada t saat kita melakukan inferensi tentang rata-rata populasi, replikasi yang tepat). Tapi itu saja yang saya asumsikan. Pertanyaan saya adalah 'hanya diberikan p dari percobaan awal, seberapa jauh kita bisa melangkah?' Kesimpulan saya adalah bahwa kita dapat menemukan distribusi p yang diharapkan dari percobaan replikasi. Dari distribusi itu kita dapat memperoleh interval p , atau probabilitas bunga, seperti probabilitas bahwa replikasi akan memberikan p<0,05, atau nilai menarik lainnya.

Inti dari argumen, dan mungkin langkah yang paling layak untuk dicerminkan, diilustrasikan dalam Gambar A2 dalam artikel. Setengah bagian bawah mungkin tidak bermasalah. Jika kita tahu mu (biasanya dicapai dengan menganggapnya sama dengan rata-rata dari studi awal) maka kesalahan estimasi, diwakili oleh segmen garis tebal, memiliki distribusi diketahui (normal, rata-rata mu, SD seperti yang dijelaskan dalam keterangan).

Kemudian langkah besar: Pertimbangkan bagian atas Gambar 2A. Kami TIDAK memiliki informasi tentang mu. Tidak ada informasi — tidak ada asumsi tersembunyi tentang prior. Namun kita dapat menyatakan distribusi segmen garis tebal: normal, rata-rata nol, SD = SQRT (2) kali SD di bagian bawah. Itu memberi kita apa yang kita butuhkan untuk menemukan distribusi replikasi p .

Interval p yang dihasilkan sangat panjang — setidaknya saya merasa heran ketika saya membandingkan dengan cara nilai p secara universal digunakan oleh para peneliti. Para peneliti biasanya terobsesi dengan tempat desimal kedua atau ketiga dari nilai p , tanpa menghargai bahwa nilai yang mereka lihat dapat dengan mudah sangat berbeda. Oleh karena itu komentar saya pada hal. 293-4 tentang pelaporan interval p untuk mengakui ketidakjelasan p .

Panjang, ya, tetapi itu tidak berarti bahwa p dari percobaan awal tidak berarti apa-apa. Setelah p awal yang sangat rendah , replikasi akan cenderung, rata-rata, memiliki nilai p yang lebih kecil . P dan replikasi awal yang lebih tinggi akan cenderung memiliki nilai p yang agak lebih besar . Lihat Tabel 1 pada hal. 292 dan bandingkan, misalnya, interval p di kolom kanan untuk inisial p = .001 dan .1 — dua hasil yang secara konvensional dianggap terpisah beberapa mil. Interval dua p jelas berbeda, tetapi ada tumpang tindih yang sangat besar dari keduanya. Replikasi percobaan .001 bisa dengan mudah memberikan hallebih besar dari replikasi percobaan .1. Meskipun, kemungkinan besar, itu tidak akan terjadi.

Sebagai bagian dari penelitian PhD-nya, Jerry Lai, melaporkan ( Lai, et al., 2011 ) beberapa studi bagus yang menemukan bahwa para peneliti yang diterbitkan dari sejumlah disiplin ilmu memiliki interval p subyektif yang terlalu pendek. Dengan kata lain, para peneliti cenderung memperkirakan terlalu rendah seberapa berbeda nilai p replikasi itu.

Kesimpulan saya adalah bahwa kita seharusnya tidak menggunakan nilai p sama sekali. Laporkan dan diskusikan CI 95%, yang menyampaikan semua informasi dalam data yang memberi tahu kita tentang populasi yang sedang kita selidiki. Mengingat CI, nilai p tidak menambah apa-apa, dan kemungkinan untuk menyarankan, secara keliru, beberapa tingkat kepastian (Signifikan! Tidak signifikan! Efeknya ada! Tidak!). Tentu, nilai CI dan p didasarkan pada teori yang sama, dan kita dapat mengkonversi dari satu ke yang lain (ada banyak hal di Bab 6 dari buku teks intro kami). Tetapi CI memberi informasi jauh lebih banyak daripada hal . Yang paling penting, itu membuat tingkat ketidakpastian yang menonjol. Mengingat kecenderungan manusiawi kita untuk meraih kepastian, luasnya CI sangat penting untuk dipertimbangkan.

Saya juga berusaha menyoroti variabilitas nilai p dalam video 'dance of the p values'. Google 'menari nilai p '. Setidaknya ada beberapa versi.

Semoga semua interval kepercayaan Anda singkat!

Geoff

Geoff Cumming
sumber
3
Terima kasih atas komentar tambahan ini, Geoff. Saya setuju dengan beberapa poin di sini (misalnya tentang "tingkat kepastian") dan tidak setuju dengan beberapa hal lain (misalnya "Mengingat CI, nilai p tidak menambahkan apa-apa") tetapi satu hal khususnya yang saya rasa perlu diulang: saya tidak berpikir ada setiap cara untuk melakukan analisis Anda tanpa Bayes sebelumnya. Argumen yang disajikan pada Gambar A2 Anda membutuhkan flat sebelumnya sebagai asumsi tersembunyi. Seseorang dapat mengambil prior lain dan mencapai hasil yang sangat berbeda; Saya tidak berpikir ada argumen murni yang sering dapat mendukung kesimpulan Anda. Lihat komentar @ whuber di atas.
Amoeba berkata Reinstate Monica
@ Geoff Cumming - Komentar Anda tentang pendidikan statistik dan interpretasi hasil sangat dihargai.
rolando2