Mengapa 0,05 <p <0,95 hasil disebut false positive?

Sunting: Basis pertanyaan saya cacat, dan saya perlu meluangkan waktu mencari tahu apakah itu bisa masuk akal.

Sunting 2: Mengklarifikasi bahwa saya mengakui bahwa nilai-p bukan ukuran langsung dari probabilitas hipotesis nol, tetapi bahwa saya berasumsi bahwa semakin dekat nilai-p ke 1, semakin besar kemungkinan hipotesis memiliki telah dipilih untuk pengujian eksperimental yang hipotesis nol yang sesuai adalah benar, sedangkan semakin dekat nilai-p ke 0, semakin besar kemungkinan bahwa hipotesis telah dipilih untuk pengujian eksperimental yang hipotesis nol yang sesuai adalah salah. Saya tidak dapat melihat bagaimana ini salah kecuali himpunan semua hipotesis (atau semua hipotesis yang dipilih untuk eksperimen) entah bagaimana patologis.

Sunting 3: Saya pikir saya masih tidak menggunakan terminologi yang jelas untuk mengajukan pertanyaan saya. Ketika nomor lotre dibacakan, dan Anda mencocokkannya dengan tiket Anda satu per satu, sesuatu berubah. Probabilitas bahwa Anda telah menang tidak berubah, tetapi probabilitas bahwa Anda dapat mematikan radio tidak. Ada perubahan serupa yang terjadi ketika eksperimen dilakukan, tetapi saya merasa bahwa terminologi yang saya gunakan - "nilai-p mengubah kemungkinan hipotesis yang sebenarnya telah dipilih" - bukan terminologi yang benar.

Sunting 4: Saya telah menerima dua jawaban yang luar biasa terperinci dan informatif yang berisi banyak informasi untuk saya selesaikan. Saya akan memilih keduanya sekarang dan kemudian kembali untuk menerima satu ketika saya sudah cukup belajar dari kedua jawaban untuk mengetahui bahwa mereka telah menjawab atau membatalkan pertanyaan saya. Pertanyaan ini membuka kaleng cacing yang jauh lebih besar daripada yang saya harapkan untuk dimakan.

Dalam makalah yang saya baca, saya telah melihat hasil dengan p> 0,05 setelah validasi yang disebut "false positive". Namun, bukankah masih lebih mungkin daripada tidak bahwa saya telah memilih hipotesis untuk diuji dengan hipotesis nol yang sesuai palsu ketika data eksperimen memiliki ap ~~<0,50~~ yang rendah tetapi> 0,05, dan bukan hipotesis nol dan hipotesis penelitian secara statistik tidak pasti / tidak signifikan (mengingat statistik signifikansi cutoff konvensional) manapun antara 0,05 <p < ~~0,95~~ apapun kebalikan dari p <0,05, diberikan asimetri menunjukkan di @ NickStauner ini hubungan ?

Mari kita sebut angka A itu, dan definisikan sebagai nilai-p yang mengatakan hal yang sama tentang kemungkinan bahwa Anda telah mengambil hipotesis nol sejati untuk percobaan / analisis Anda bahwa nilai p-0,05 mengatakan tentang kemungkinan bahwa Anda telah memilih hipotesis non-nol sejati untuk percobaan / analisis Anda. Tidak 0,05 <p <Katakan saja, "Ukuran sampel Anda tidak cukup besar untuk menjawab pertanyaan, dan Anda tidak akan bisa menilai signifikansi aplikasi / dunia nyata sampai Anda mendapatkan sampel yang lebih besar dan mendapatkan statistik Anda signifikansi beres "?

Dengan kata lain, bukankah benar untuk menyebut hasil pasti salah (bukan hanya tidak didukung) jika dan hanya jika p> A?

Ini kelihatannya mudah bagi saya, tetapi penggunaan yang luas seperti itu memberi tahu saya bahwa saya mungkin salah. Apakah saya:

a) salah menafsirkan matematika,
b) mengeluh tentang konvensi yang tidak berbahaya-jika-tidak-benar-benar,
c) sepenuhnya benar, atau
d) lainnya?

Saya menyadari bahwa ini terdengar seperti seruan untuk pendapat, tetapi ini sepertinya pertanyaan dengan jawaban yang benar secara matematis (sekali cutoff signifikansi ditetapkan) bahwa baik saya atau (hampir) semua orang salah.

hypothesis-testing p-value Andrew Klaassen
sumber

Hai David. Inilah makalah yang membuat saya memikirkannya: tautan

Andrew Klaassen

Di baris pertama Anda bukankah Anda bermaksud menulis "... hasil awalnya dengan tetapi kemudian dengan setelah validasi ..."? Hasil dengan lebih besar dari ambang dinyatakan sebagai hasil negatif . Bahkan setelah pengeditan Anda, karakterisasi Anda tentang interpretasi tidak benar, jadi saya ingin menyarankan Anda meluangkan waktu beberapa saat untuk meninjau beberapa posting kami tentang menafsirkan nilai-p dan mempertimbangkan kembali apa yang ingin Anda tanyakan.

p < 0.05

$p\lt 0.05$

p \geq 0.05

$p\ge 0.05$

p

$p$

α

$\alpha$

p

$p$

whuber

Anda dapat menghapus pertanyaan Anda jika mau, tetapi karena Anda telah menerima dua upvotes (oh, mari kita membuatnya 3), jawaban yang tervvotifikasi, dan akan menerima jawaban lain dari "Anda benar-benar", saya meminta Anda meninggalkannya. aktif dan kerjakan sesuai keinginan Anda, meskipun saya dengan hormat menunda hak Anda untuk melakukan apa yang Anda inginkan. Bersulang!

Nick Stauner

Saya setuju dengan @Nick, Andrew: Anda memiliki pertanyaan yang meyakinkan dan provokatif di sini yang telah menarik beberapa pemikiran dan perhatian, jadi kami akan sangat berterima kasih jika Anda tetap mempostingnya dan, jika Anda bisa, perbaiki sedikit untuk fokus pada masalah utama tentang bagaimana nilai-p ditafsirkan. Bagian novel, dari apa yang bisa saya katakan, adalah saran bahwa kriteria penolakan harus didasarkan pada nilai-p yang besar. Berikan komentar Anda: false positive terjadi ketika tes signifikan tetapi diketahui bahwa hipotesis nol itu benar.

whuber

@whuber: Fokus latar belakang yang lebih menarik bagi saya adalah pada hasil apa yang akan menyarankan bahwa percobaan tindak lanjut dengan ukuran sampel yang lebih besar cenderung menjadi produktif. Mengingat tanggapan sejauh ini, sepertinya saya perlu bertanya apakah nilai-p bahkan dapat dikaitkan dengan pertanyaan itu. Mengetahui bahwa hipotesis nol itu benar sebagai ukuran positif palsu: Kapan orang akan mengatakan bahwa hipotesis nol itu benar di luar situasi p> (1 - α)?

Andrew Klaassen

Jawaban:

Pertanyaan Anda didasarkan pada premis yang salah:

bukankah hipotesis nol masih lebih mungkin daripada tidak salah ketika p <0,50

Nilai p bukanlah probabilitas bahwa hipotesis nol itu benar. Sebagai contoh, jika Anda mengambil seribu kasus di mana hipotesis nol itu benar, setengah dari mereka akan memilikinya p < .5. Setengah dari itu semua akan menjadi nol.

Memang, gagasan yang p > .95berarti bahwa hipotesis nol "mungkin benar" sama-sama menyesatkan. Jika hipotesis nol itu benar, probabilitas yang p > .95persis sama dengan probabilitas itu p < .05.

ETA: Hasil edit Anda memperjelas apa masalahnya: Anda masih memiliki masalah di atas (bahwa Anda memperlakukan nilai-p sebagai probabilitas posterior, padahal bukan). Penting untuk dicatat bahwa ini bukan perbedaan filosofis yang halus (karena saya pikir Anda menyiratkan diskusi Anda tentang tiket lotre): ini memiliki implikasi praktis yang sangat besar untuk setiap interpretasi nilai-p.

Tapi ada adalah transformasi Anda dapat melakukan pada p-nilai yang akan membawa Anda ke apa yang Anda cari, dan itu disebut lokal tingkat penemuan palsu. (Seperti yang dijelaskan oleh makalah yang bagus ini , ini sering kali setara dengan "probabilitas kesalahan posterior", jadi pikirkan seperti itu jika Anda mau).

Mari kita bekerja dengan contoh nyata. Katakanlah Anda sedang melakukan uji-t untuk menentukan apakah sampel 10 angka (dari distribusi normal) memiliki rata-rata 0 (uji-satu satu sampel, uji dua sisi). Pertama, mari kita lihat apa distribusi p-value terlihat seperti ketika mean sebenarnya adalah nol, dengan simulasi R singkat:

null.pvals = replicate(10000, t.test(rnorm(10, mean=0, sd=1))$p.value)
hist(null.pvals)

masukkan deskripsi gambar di sini

Seperti yang dapat kita lihat, nilai-nol nol memiliki distribusi yang seragam (kemungkinan sama di semua titik antara 0 dan 1). Ini adalah kondisi yang diperlukan dari nilai-p: memang, itulah tepatnya nilai-p! (Mengingat nol itu benar, ada peluang 5% kurang dari 0,05, peluang 10% kurang dari 0,1 ...)

Sekarang mari kita pertimbangkan kasus-hipotesis alternatif di mana nol adalah salah. Sekarang, ini sedikit lebih rumit: ketika nol adalah salah, "seberapa salah" itu? Mean dari sampel bukan 0, tetapi apakah itu 0,5? 1? 10? Apakah itu bervariasi secara acak, kadang kecil dan kadang besar? Demi kesederhanaan, katakanlah itu selalu sama dengan 0,5 (tapi ingat kerumitan itu, itu akan menjadi penting nanti):

alt.pvals = replicate(10000, t.test(rnorm(10, mean=.5, sd=1))$p.value)
hist(alt.pvals)

masukkan deskripsi gambar di sini

Perhatikan bahwa distribusinya sekarang tidak seragam: dialihkan ke 0! Dalam komentar Anda, Anda menyebutkan "asimetri" yang memberikan informasi: ini asimetri itu.

Jadi bayangkan Anda tahu kedua distribusi itu, tetapi Anda sedang bekerja dengan eksperimen baru, dan Anda juga punya sebelumnya bahwa ada kemungkinan 50% itu nol dan 50% itu alternatif. Anda mendapatkan nilai p dari .7. Bagaimana Anda bisa mendapatkan dari itu dan nilai p ke probabilitas?

Yang harus Anda lakukan adalah membandingkan kepadatan :

lines(density(alt.pvals, bw=.02))
plot(density(null.pvals, bw=.02))

Dan lihat nilai-p Anda:

abline(v=.7, col="red", lty=2)

masukkan deskripsi gambar di sini

Rasio antara kerapatan nol dan kerapatan alternatif dapat digunakan untuk menghitung tingkat penemuan palsu lokal : semakin tinggi nol relatif terhadap alternatif, semakin tinggi FDR lokal. Itu adalah probabilitas bahwa hipotesis tersebut nol (secara teknis ia memiliki interpretasi frequentist yang lebih ketat, tetapi kami akan tetap sederhana di sini). Jika yang nilai sangat tinggi, maka Anda dapat membuat penafsiran "hipotesis nol hampir pasti benar." Memang, Anda dapat membuat ambang 0,05 dan 0,95 dari FDR lokal: ini akan memiliki properti yang Anda cari. (Dan karena FDR lokal meningkat secara monoton dengan nilai-p, setidaknya jika Anda melakukannya dengan benar, ini akan diterjemahkan ke beberapa ambang A dan B di mana Anda dapat mengatakan "

Sekarang, saya sudah dapat mendengar Anda bertanya "lalu mengapa kita tidak menggunakannya sebagai ganti nilai-p?" Dua alasan:

Anda harus memutuskan pada probabilitas sebelumnya bahwa tes ini nol
Anda perlu mengetahui kepadatan di bawah alternatif. Hal ini sangat sulit untuk menebak, karena Anda perlu menentukan berapa besar efek ukuran dan varians dapat menjadi, dan seberapa sering mereka begitu!

Anda tidak memerlukan keduanya untuk tes nilai-p, dan tes nilai-p masih memungkinkan Anda menghindari kesalahan positif (yang merupakan tujuan utamanya). Sekarang, adalah mungkin untuk memperkirakan kedua nilai tersebut dalam beberapa pengujian hipotesis, ketika Anda memiliki ribuan nilai-p (seperti satu tes untuk masing-masing dari ribuan gen: lihat makalah ini atau makalah ini misalnya), tetapi tidak ketika Anda Sedang melakukan tes tunggal.

Akhirnya, Anda mungkin berkata, "Apakah kertasnya masih salah untuk mengatakan replikasi yang mengarah pada nilai-p di atas .05 tentu saja positif palsu?" Ya, walaupun benar bahwa mendapatkan satu nilai-p dari .04 dan nilai p lain dari .06 tidak benar-benar berarti hasil yang asli salah, dalam praktiknya itu adalah metrik yang masuk akal untuk dipilih. Tetapi bagaimanapun juga, Anda mungkin senang mengetahui orang lain meragukannya! Makalah yang Anda maksud agak kontroversial dalam statistik: makalah ini menggunakan metode yang berbeda dan sampai pada kesimpulan yang sangat berbeda tentang nilai-p dari penelitian medis, dan kemudian penelitian itu dikritik oleh beberapa orang Bayesian terkemuka (dan berputar-putar kelanjutannya) ...). Jadi sementara pertanyaan Anda didasarkan pada beberapa anggapan yang salah tentang nilai-p, saya pikir itu memeriksa asumsi yang menarik pada bagian dari makalah yang Anda kutip.

David Robinson
sumber

Hai David. Titik adil. Saya akan berusaha menyusun kembali pertanyaan saya untuk tidak membuat bagian itu salah, dan melihat apakah saya masih melihat masalah.

Andrew Klaassen

@ Davidvid_Robinson: Apakah benar menggunakan nilai-p sebagai tingkat alarm palsu dalam aturan Bayesian, dan dapat menarik kesimpulan tentang probabilitas penelitian dan / atau hipotesis nol dari itu? Tetapkan sebelum 50% dan mainkan cepat dan lepas dari sana? :-)

Andrew Klaassen

Aye, menarik! Bisakah Anda mengerjakannya menjadi jawaban Anda? Tapi ada asimetri antara bagaimana p berperilaku ketika nol benar versus ketika itu salah bahwa ~ harus ~ memberikan beberapa informasi tentang kemungkinan bahwa hipotesis nol benar berdasarkan nilai-p yang diekstraksi dari data. Jika hipotesis nol yang benar menghasilkan nilai-p yang terdistribusi secara seragam, dan hipotesis tidak-nol yang benar menghasilkan nilai-p yang condong ke 0, menarik ap = 0,01 marmer ~ harus ~ menunjukkan bahwa Anda lebih cenderung memilih yang tidak -null toples eksperimen, bahkan jika probabilitas tidak berubah dengan melakukan eksperimen.

Andrew Klaassen

@AndrewKlaassen: Anda mungkin tertarik pada konsep "tingkat penemuan palsu lokal". Ini adalah persamaan yang sering terjadi dengan probabilitas posterior Bayesian bahwa nol itu benar. Ini membutuhkan dua hal: a) Kemungkinan sebelumnya bahwa nol itu benar (kadang-kadang disebut pi0), dan b) perkiraan kepadatan untuk hipotesis alternatif. Dalam pengujian hipotesis berganda (jika Anda memiliki ribuan nilai-p), dimungkinkan untuk memperkirakan keduanya dengan melihat kerapatan. Jika saya punya sedikit lebih banyak waktu, saya dapat membangun penjelasan yang lebih dalam menjadi jawaban saya.

David Robinson

@AndrewKlaassen: Lihat hasil edit saya, di mana saya menjelaskan FDR lokal secara detail, mengapa ini cara untuk menghitung nilai Anda "A" (meskipun Anda mungkin ingin mengubah 0,05 saat Anda menghitung A), dan juga mengapa itu jarang digunakan . Pokoknya, untuk mengklarifikasi satu hal yang tidak benar-benar sesuai dengan jawaban: contoh Anda dengan tiket lotre salah memahami poin yang telah saya dan orang lain buat. Kami tidak terpaku pada gagasan "lakukan probabilitas berubah dengan informasi baru" (baik orang Bayesian dan sering memiliki interpretasi mereka tentang itu): intinya adalah bahwa Anda tidak mengubahnya dengan cara yang benar!

David Robinson

^{Arahkan tetikus Anda ke tag apa pun ( adalah tag palsu) yang muncul di bawah untuk melihat kutipan singkat dari wiki-nya. Mohon maafkan gangguan spasi baris. Saya merasa bermanfaat karena kutipan tag dapat membantu pembaca untuk memeriksa pemahaman tentang jargon saat membaca. Beberapa kutipan ini mungkin pantas diedit juga, jadi mereka juga layak menjadi seorang humas, IMHO. $\leftarrow$}

$p>.05$ biasanya menyiratkan seseorang seharusnya tidak menolak hipotesis nol . Sebaliknya, kesalahan tipe-i atau positif palsu terjadi ketika seseorang menolak nol karena kesalahan pengambilan sampel atau beberapa kejadian tidak biasa lainnya yang menghasilkan sampel yang sebelumnya tidak mungkin (biasanya dengan ) telah diambil secara acak dari suatu populasi di mana nol itu benar. Hasil dengan yang disebut false positive tampaknya mencerminkan kesalahpahaman dari uji hipotesis nol $p<.05$ $p>.05$ ing (NHST). Kesalahpahaman tidak biasa dalam literatur penelitian yang diterbitkan, karena NHST terkenal kontra-intuitif. Ini adalah salah satu seruan dari invasi bayesian (yang saya dukung, tapi belum ikuti ... belum). Saya telah bekerja dengan kesan yang salah seperti ini sendiri sampai saat ini, jadi saya bersimpati dengan sepenuh hati.

@ DavidVobinson benar dalam mengamati bahwa bukan probabilitas nol menjadi salah dalam NHST yang sering terjadi. Ini adalah (setidaknya) salah satu dari Goodman ⁽²⁰⁰⁸⁾ "Kotornya Dozen" kesalahpahaman tentang nilai^{(lihat juga}^{Hurlbert & Lombardi, 2009}⁾ . Dalam NHST, adalah probabilitas bahwa seseorang akan mengambil sampel acak di masa depan dengan cara yang sama yang akan menunjukkan hubungan atau perbedaan (atau ukuran efek apa pun) $p$ $p$ $p$ sedang diuji terhadap nol, jika varietas lain dari ukuran efek ada ...?) setidaknya berbeda dari hipotesis nol sebagai sampel (s) dari populasi yang sama (s) seseorang telah diuji untuk sampai pada nilai diberikan , jika nol benar. Artinya, adalah probabilitas untuk mendapatkan sampel seperti milik Anda yang diberikan nol ; itu tidak mencerminkan probabilitas nol - setidaknya, tidak secara langsung. Sebaliknya, metode Bayesian bangga dengan formulasi analisis statistik mereka sebagai fokus pada estimasi bukti untuk atau terhadap teori sebelumnya dari efek yang diberikan data , yang mereka berpendapat adalah pendekatan yang lebih menarik secara intuitif ⁽^{Wagenmakers, 2007} $p$ $p$ ⁾ , di antara kelebihan lainnya, dan mengesampingkan kerugian yang bisa diperdebatkan. (Agar adil, lihat “ Apa kontra analisis Bayesian? ” Anda juga berkomentar mengutip artikel yang mungkin menawarkan beberapa jawaban bagus di sana: ^{Moyé, 2008; Hurlbert & Lombardi, 2009. )}

Arguably, hipotesis nol seperti yang dinyatakan secara harfiah sering lebih cenderung daripada tidak salah, karena hipotesis nol paling umum, secara harfiah hipotesis efek nol . (Untuk beberapa contoh tandingan, lihat jawaban untuk: " Apakah set data besar tidak pantas untuk pengujian hipotesis? ") Masalah filosofis seperti efek kupu-kupu mengancam validitas literal dari hipotesis semacam itu; maka nol berguna paling umum sebagai dasar perbandingan untuk hipotesis alternatif dari beberapa efek nol. Hipotesis alternatif semacam itu mungkin tetap lebih masuk akal daripada nol setelah data dikumpulkan yang tidak mungkin jika nol itu benar. Oleh karena itu para peneliti biasanya menyimpulkan dukungan untuk hipotesis alternatif dari bukti terhadap nol, tetapi bukan itu yang p-nilai dikuantifikasi secara langsung ^{( Wagenmakers, 2007 )} .

Seperti yang Anda duga, signifikansi statistik adalah fungsi dari ukuran sampel , serta ukuran efek dan konsistensi. (Lihat jawaban @ gung untuk pertanyaan baru-baru ini, " Bagaimana uji-t signifikan secara statistik jika perbedaan rata-rata hampir 0? ") Pertanyaan yang sering ingin kami tanyakan dari data kami adalah, "Apa efek dari xon y? " Karena berbagai alasan (termasuk, IMO, program pendidikan yang salah paham dan kurang dalam statistik, terutama seperti yang diajarkan oleh non-ahli statistik), kita sering menemukan diri kita sendiri yang secara literal menanyakan pertanyaan terkait yang longgar, "Berapa probabilitas pengambilan sampel data seperti tambang secara acak dari populasi di mana xtidak mempengaruhiy? "Ini adalah perbedaan esensial antara estimasi ukuran efek dan pengujian signifikansi. Nilai hanya menjawab pertanyaan terakhir secara langsung, tetapi beberapa profesional (@rpierce mungkin bisa memberi Anda daftar yang lebih baik daripada saya; maafkan saya karena menyeret Anda ke ini !) berpendapat bahwa para peneliti salah membaca sebagai jawaban atas pertanyaan ukuran efek sebelumnya terlalu sering, saya khawatir saya harus setuju. $p$ $p$

Untuk merespons lebih langsung mengenai arti , itu adalah bahwa probabilitas pengambilan sampel data secara acak dari populasi yang nolnya benar, tetapi yang menunjukkan hubungan atau perbedaan yang berbeda dari yang dijelaskan oleh nol secara harfiah paling tidak selebar dan konsisten dengan margin data Anda ... <tarik napas> ... adalah antara 5–95%. Orang tentu dapat berpendapat ini adalah konsekuensi dari ukuran sampel, karena meningkatkan ukuran sampel meningkatkan kemampuan seseorang untuk mendeteksi ukuran efek yang kecil dan tidak konsisten dan membedakannya dari nol, katakanlah, efek nol dengan kepercayaan melebihi 5%. Namun, efek ukuran kecil dan tidak konsisten mungkin atau mungkin tidak signifikan secara pragmatis ( signifikan secara statistik $.05<p<.95$ $\ne$ - lain dari Goodman (2008) selusin kotor); ini jauh lebih tergantung pada makna data, yang signifikansi statistik hanya menyangkut dirinya sendiri sampai batas tertentu. Lihat jawaban saya di atas .

Tidakkah seharusnya benar menyebut hasil yang pasti salah (bukan hanya tidak didukung) jika ... p> 0,95?

Karena data biasanya harus mewakili pengamatan faktual secara empiris, mereka tidak boleh salah; hanya kesimpulan tentang mereka yang harus menghadapi risiko ini, idealnya. (Kesalahan pengukuran terjadi juga tentu saja, tetapi masalah itu agak di luar cakupan jawaban ini, jadi selain dari menyebutkannya di sini, saya akan membiarkannya sendiri kalau tidak.) Beberapa risiko selalu ada membuat kesimpulan positif palsu tentang nol yang kurang bermanfaat daripada hipotesis alternatif, setidaknya kecuali penyerang tahu nol itu benar. Hanya dalam keadaan agak sulit untuk memahami bahwa nol secara literal benar maka kesimpulan yang mendukung hipotesis alternatif pasti salah ... setidaknya, sejauh yang dapat saya bayangkan saat ini.

Jelas, penggunaan luas atau konvensi bukanlah otoritas terbaik pada validitas epistemik atau inferensial. Bahkan sumber daya yang diterbitkan pun bisa keliru; lihat misalnya Kekeliruan dalam definisi nilai-p . Referensi Anda ^{( Hurlbert & Lombardi, 2009 )} menawarkan beberapa penjelasan menarik tentang prinsip ini juga ^{(halaman 322):}

StatSoft (2007) membanggakan di situs web mereka bahwa manual online mereka “adalah satu-satunya sumber daya internet tentang statistik yang direkomendasikan oleh Encyclopedia Brittanica.” Tidak pernah begitu penting bagi 'Distrust Authority,' seperti yang tertulis di stiker. [URL yang rusak dikonversi menjadi teks hyperlink.]

Contoh kasus lain: frasa ini dalam artikel Nature News yang terbaru ^{( Nuzzo, 2014 )} : "Nilai P, indeks umum untuk kekuatan bukti ..." Lihat Wagenmakers ' ^{(2007, halaman 787)} "Masalah 3: Nilai Tidak Mengkuantifikasi Bukti Statistik "... Namun, @MichaelLew ⁽^{Lew, 2013}⁾ tidak setuju dalam cara yang mungkin berguna bagi Anda: ia menggunakan nilai untuk mengindeks fungsi kemungkinan. Namun, sebanyak sumber-sumber yang dipublikasikan ini saling bertentangan, setidaknya satu pasti salah! (Pada tingkat tertentu, saya pikir ...) Tentu saja, ini tidak seburuk "tidak dapat dipercaya" per se. $p$ $p$ _{Saya harap saya bisa membujuk Michael untuk berdebat di sini dengan memberi tag dia seperti yang saya miliki (tapi saya tidak yakin tag pengguna mengirim pemberitahuan ketika diedit - saya tidak berpikir Anda di OP melakukannya). Dia mungkin satu-satunya yang bisa menyelamatkan Nuzzo - bahkan Nature sendiri! Bantu kami Obi-Wan! (Dan maafkan saya jika jawaban saya di sini menunjukkan bahwa saya masih gagal memahami implikasi dari pekerjaan Anda, yang saya yakin saya miliki dalam hal apa pun ...)} BTW, Nuzzo juga menawarkan pertahanan diri yang menarik dan penolakan terhadap "Masalah 3" Wagenmaakers: lihat figur "Kemungkinan penyebab" Nuzzo dan kutipan yang mendukung ^{( Goodman, 2001 , 1992; Gorroochurn, Hodge, Heiman, Durner, & Greenberg, 2007 )} . Ini mungkin hanya berisi jawaban Anda

Re: pertanyaan pilihan ganda Anda, saya pilih d. Anda mungkin telah salah menafsirkan beberapa konsep di sini, tetapi Anda tentu tidak sendirian jika demikian, dan saya akan menyerahkan penilaian kepada Anda, karena hanya Anda yang tahu apa yang benar-benar Anda yakini. Misinterpretasi menyiratkan sejumlah kepastian, sedangkan mengajukan pertanyaan menyiratkan sebaliknya, dan dorongan untuk mempertanyakan ketika ketidakpastian itu cukup terpuji dan jauh dari mana-mana, sayangnya. Masalah sifat manusia ini membuat kesalahan dari kebaktian kita sayangnya tidak berbahaya, dan layak menerima keluhan seperti yang dirujuk di sini. (Sebagian berkat Anda!) Namun, proposal Anda juga tidak sepenuhnya benar.

$p$ $p$ , Saya adalah otoritas yang lemah di terbaik, dan saya menyambut setiap koreksi atau elaborasi yang mungkin ditawarkan orang lain untuk apa yang saya katakan di sini. Yang bisa saya simpulkan dalam kesimpulan adalah bahwa mungkin ada jawaban yang benar secara matematis, dan mungkin sebagian besar orang salah. Jawaban yang tepat tentu tidak mudah, seperti yang ditunjukkan oleh referensi berikut ...

$p$ $p$

Referensi

_{- Goodman, SN (1992). Sebuah komentar tentang replikasi, nilai- P dan bukti. Statistik dalam Kedokteran, 11 (7), 875–879.

- Goodman, SN (2001). Nilai- P dan Bayes: Sebuah proposal sederhana. Epidemiologi, 12 (3), 295–297. Diperoleh dari http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs /ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .

- Goodman, S. (2008). Selusin kotor: Dua Belas P- nilai kesalahpahaman. Seminar dalam Hematologi, 45 (3), 135-140. Diperoleh dari http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .

- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M., & Greenberg, DA (2007). Non-replikasi studi asosiasi: "pseudo-kegagalan" untuk mereplikasi? Genetika dalam Kedokteran, 9 (6), 325–331. Diperoleh dari http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .

- Hurlbert, SH, & Lombardi, CM (2009). Keruntuhan akhir kerangka teori keputusan Neyman-Pearson dan kebangkitan neoFisherian. Annales Zoologici Fennici, 46 (5), 311–349. Diperoleh dari http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .

- Lew, MJ (2013). Ke P atau tidak ke P: Tentang sifat bukti nilai-P dan tempatnya dalam inferensi ilmiah. arXiv: 1311.0081 [stat.ME]. Diterima darihttp://arxiv.org/abs/1311.0081 .

- Moyé, LA (2008). Bayesians dalam uji klinis: Tidur di saklar. Statistik dalam Kedokteran, 27 (4), 469-482.

- Nuzzo, R. (2014, 12 Februari). Metode ilmiah: Kesalahan statistik. Berita Alam, 506 (7487). Diperoleh dari http://www.nature.com/news/scientific-method-statribution-errors-1.14700 .

- Wagenmakers, EJ (2007). Solusi praktis untuk masalah meresap nilai p . Buletin & Ulasan Psikonomis , 14 (5), 779–804. Diperoleh dari http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .}

Nick Stauner
sumber

Saya masih bekerja melalui jawaban Anda yang sangat teliti (terima kasih untuk itu), tetapi penyebutan Anda tentang "invasi Bayesian" membuat saya berpikir tentang "Bayesian dalam Uji Klinis: Tertidur di Switch", dicetak ulang sebagai Bab 12 di sini , yang saya ' Aku juga perlahan membungkus kepalaku.

Andrew Klaassen

"Anda telah mencapai halaman yang tidak tersedia untuk dilihat atau mencapai batas tampilan Anda untuk buku ini" ...?

Nick Stauner

Sangat disayangkan. Jika Anda memiliki akses jurnal, Anda juga dapat menemukannya di sini . Pencarian untuk frasa "bayesia sekarang meruntuhkan hambatan tradisional dalam uji klinis" mungkin juga membuat Anda di sana.

Andrew Klaassen

Keruntuhan akhir kerangka teori keputusan Neyman-Pearson dan kebangkitan neoFisherian juga mengandung sejarah nilai-p yang menghibur dan serangan terhadap penggunaan analisis Bayesian dalam penelitian. Saya tidak bisa mengatakan saya memahaminya dengan cukup baik untuk mengevaluasinya, tetapi saya pikir itu baik untuk setidaknya menyadari koreksi terhadap antusiasme saat ini.

Andrew Klaassen

@NickStauner Baru saja menemukan diskusi ini. Tidak perlu setidaknya satu akun salah jika ada satu set akun yang tidak setuju. Mereka mungkin didasarkan pada model yang berbeda. [Jika kamu permainan, kamu harus membaca buku Bill Thompson The Nature of Statistics Evidence (2005).] Meskipun demikian, akunku benar ;-) (Meskipun pagi ini ditolak oleh jurnal lagi.) Aku menemukan kertas Nuzzo untuk menjadi ceroboh dan berpotensi menyesatkan.

Michael Lew