Sunting: Basis pertanyaan saya cacat, dan saya perlu meluangkan waktu mencari tahu apakah itu bisa masuk akal.
Sunting 2: Mengklarifikasi bahwa saya mengakui bahwa nilai-p bukan ukuran langsung dari probabilitas hipotesis nol, tetapi bahwa saya berasumsi bahwa semakin dekat nilai-p ke 1, semakin besar kemungkinan hipotesis memiliki telah dipilih untuk pengujian eksperimental yang hipotesis nol yang sesuai adalah benar, sedangkan semakin dekat nilai-p ke 0, semakin besar kemungkinan bahwa hipotesis telah dipilih untuk pengujian eksperimental yang hipotesis nol yang sesuai adalah salah. Saya tidak dapat melihat bagaimana ini salah kecuali himpunan semua hipotesis (atau semua hipotesis yang dipilih untuk eksperimen) entah bagaimana patologis.
Sunting 3: Saya pikir saya masih tidak menggunakan terminologi yang jelas untuk mengajukan pertanyaan saya. Ketika nomor lotre dibacakan, dan Anda mencocokkannya dengan tiket Anda satu per satu, sesuatu berubah. Probabilitas bahwa Anda telah menang tidak berubah, tetapi probabilitas bahwa Anda dapat mematikan radio tidak. Ada perubahan serupa yang terjadi ketika eksperimen dilakukan, tetapi saya merasa bahwa terminologi yang saya gunakan - "nilai-p mengubah kemungkinan hipotesis yang sebenarnya telah dipilih" - bukan terminologi yang benar.
Sunting 4: Saya telah menerima dua jawaban yang luar biasa terperinci dan informatif yang berisi banyak informasi untuk saya selesaikan. Saya akan memilih keduanya sekarang dan kemudian kembali untuk menerima satu ketika saya sudah cukup belajar dari kedua jawaban untuk mengetahui bahwa mereka telah menjawab atau membatalkan pertanyaan saya. Pertanyaan ini membuka kaleng cacing yang jauh lebih besar daripada yang saya harapkan untuk dimakan.
Dalam makalah yang saya baca, saya telah melihat hasil dengan p> 0,05 setelah validasi yang disebut "false positive". Namun, bukankah masih lebih mungkin daripada tidak bahwa saya telah memilih hipotesis untuk diuji dengan hipotesis nol yang sesuai palsu ketika data eksperimen memiliki ap <0,50 yang rendah tetapi> 0,05, dan bukan hipotesis nol dan hipotesis penelitian secara statistik tidak pasti / tidak signifikan (mengingat statistik signifikansi cutoff konvensional) manapun antara 0,05 <p < 0,95 apapun kebalikan dari p <0,05, diberikan asimetri menunjukkan di @ NickStauner ini hubungan ?
Mari kita sebut angka A itu, dan definisikan sebagai nilai-p yang mengatakan hal yang sama tentang kemungkinan bahwa Anda telah mengambil hipotesis nol sejati untuk percobaan / analisis Anda bahwa nilai p-0,05 mengatakan tentang kemungkinan bahwa Anda telah memilih hipotesis non-nol sejati untuk percobaan / analisis Anda. Tidak 0,05 <p <Katakan saja, "Ukuran sampel Anda tidak cukup besar untuk menjawab pertanyaan, dan Anda tidak akan bisa menilai signifikansi aplikasi / dunia nyata sampai Anda mendapatkan sampel yang lebih besar dan mendapatkan statistik Anda signifikansi beres "?
Dengan kata lain, bukankah benar untuk menyebut hasil pasti salah (bukan hanya tidak didukung) jika dan hanya jika p> A?
Ini kelihatannya mudah bagi saya, tetapi penggunaan yang luas seperti itu memberi tahu saya bahwa saya mungkin salah. Apakah saya:
a) salah menafsirkan matematika,
b) mengeluh tentang konvensi yang tidak berbahaya-jika-tidak-benar-benar,
c) sepenuhnya benar, atau
d) lainnya?
Saya menyadari bahwa ini terdengar seperti seruan untuk pendapat, tetapi ini sepertinya pertanyaan dengan jawaban yang benar secara matematis (sekali cutoff signifikansi ditetapkan) bahwa baik saya atau (hampir) semua orang salah.
sumber
Jawaban:
Pertanyaan Anda didasarkan pada premis yang salah:
Nilai p bukanlah probabilitas bahwa hipotesis nol itu benar. Sebagai contoh, jika Anda mengambil seribu kasus di mana hipotesis nol itu benar, setengah dari mereka akan memilikinya
p < .5
. Setengah dari itu semua akan menjadi nol.Memang, gagasan yang
p > .95
berarti bahwa hipotesis nol "mungkin benar" sama-sama menyesatkan. Jika hipotesis nol itu benar, probabilitas yangp > .95
persis sama dengan probabilitas itup < .05
.ETA: Hasil edit Anda memperjelas apa masalahnya: Anda masih memiliki masalah di atas (bahwa Anda memperlakukan nilai-p sebagai probabilitas posterior, padahal bukan). Penting untuk dicatat bahwa ini bukan perbedaan filosofis yang halus (karena saya pikir Anda menyiratkan diskusi Anda tentang tiket lotre): ini memiliki implikasi praktis yang sangat besar untuk setiap interpretasi nilai-p.
Tapi ada adalah transformasi Anda dapat melakukan pada p-nilai yang akan membawa Anda ke apa yang Anda cari, dan itu disebut lokal tingkat penemuan palsu. (Seperti yang dijelaskan oleh makalah yang bagus ini , ini sering kali setara dengan "probabilitas kesalahan posterior", jadi pikirkan seperti itu jika Anda mau).
Mari kita bekerja dengan contoh nyata. Katakanlah Anda sedang melakukan uji-t untuk menentukan apakah sampel 10 angka (dari distribusi normal) memiliki rata-rata 0 (uji-satu satu sampel, uji dua sisi). Pertama, mari kita lihat apa distribusi p-value terlihat seperti ketika mean sebenarnya adalah nol, dengan simulasi R singkat:
Seperti yang dapat kita lihat, nilai-nol nol memiliki distribusi yang seragam (kemungkinan sama di semua titik antara 0 dan 1). Ini adalah kondisi yang diperlukan dari nilai-p: memang, itulah tepatnya nilai-p! (Mengingat nol itu benar, ada peluang 5% kurang dari 0,05, peluang 10% kurang dari 0,1 ...)
Sekarang mari kita pertimbangkan kasus-hipotesis alternatif di mana nol adalah salah. Sekarang, ini sedikit lebih rumit: ketika nol adalah salah, "seberapa salah" itu? Mean dari sampel bukan 0, tetapi apakah itu 0,5? 1? 10? Apakah itu bervariasi secara acak, kadang kecil dan kadang besar? Demi kesederhanaan, katakanlah itu selalu sama dengan 0,5 (tapi ingat kerumitan itu, itu akan menjadi penting nanti):
Perhatikan bahwa distribusinya sekarang tidak seragam: dialihkan ke 0! Dalam komentar Anda, Anda menyebutkan "asimetri" yang memberikan informasi: ini asimetri itu.
Jadi bayangkan Anda tahu kedua distribusi itu, tetapi Anda sedang bekerja dengan eksperimen baru, dan Anda juga punya sebelumnya bahwa ada kemungkinan 50% itu nol dan 50% itu alternatif. Anda mendapatkan nilai p dari .7. Bagaimana Anda bisa mendapatkan dari itu dan nilai p ke probabilitas?
Yang harus Anda lakukan adalah membandingkan kepadatan :
Dan lihat nilai-p Anda:
Rasio antara kerapatan nol dan kerapatan alternatif dapat digunakan untuk menghitung tingkat penemuan palsu lokal : semakin tinggi nol relatif terhadap alternatif, semakin tinggi FDR lokal. Itu adalah probabilitas bahwa hipotesis tersebut nol (secara teknis ia memiliki interpretasi frequentist yang lebih ketat, tetapi kami akan tetap sederhana di sini). Jika yang nilai sangat tinggi, maka Anda dapat membuat penafsiran "hipotesis nol hampir pasti benar." Memang, Anda dapat membuat ambang 0,05 dan 0,95 dari FDR lokal: ini akan memiliki properti yang Anda cari. (Dan karena FDR lokal meningkat secara monoton dengan nilai-p, setidaknya jika Anda melakukannya dengan benar, ini akan diterjemahkan ke beberapa ambang A dan B di mana Anda dapat mengatakan "
Sekarang, saya sudah dapat mendengar Anda bertanya "lalu mengapa kita tidak menggunakannya sebagai ganti nilai-p?" Dua alasan:
Anda tidak memerlukan keduanya untuk tes nilai-p, dan tes nilai-p masih memungkinkan Anda menghindari kesalahan positif (yang merupakan tujuan utamanya). Sekarang, adalah mungkin untuk memperkirakan kedua nilai tersebut dalam beberapa pengujian hipotesis, ketika Anda memiliki ribuan nilai-p (seperti satu tes untuk masing-masing dari ribuan gen: lihat makalah ini atau makalah ini misalnya), tetapi tidak ketika Anda Sedang melakukan tes tunggal.
Akhirnya, Anda mungkin berkata, "Apakah kertasnya masih salah untuk mengatakan replikasi yang mengarah pada nilai-p di atas .05 tentu saja positif palsu?" Ya, walaupun benar bahwa mendapatkan satu nilai-p dari .04 dan nilai p lain dari .06 tidak benar-benar berarti hasil yang asli salah, dalam praktiknya itu adalah metrik yang masuk akal untuk dipilih. Tetapi bagaimanapun juga, Anda mungkin senang mengetahui orang lain meragukannya! Makalah yang Anda maksud agak kontroversial dalam statistik: makalah ini menggunakan metode yang berbeda dan sampai pada kesimpulan yang sangat berbeda tentang nilai-p dari penelitian medis, dan kemudian penelitian itu dikritik oleh beberapa orang Bayesian terkemuka (dan berputar-putar kelanjutannya) ...). Jadi sementara pertanyaan Anda didasarkan pada beberapa anggapan yang salah tentang nilai-p, saya pikir itu memeriksa asumsi yang menarik pada bagian dari makalah yang Anda kutip.
sumber
Arahkan tetikus Anda ke tag apa pun ( adalah tag palsu) yang muncul di bawah untuk melihat kutipan singkat dari wiki-nya. Mohon maafkan gangguan spasi baris. Saya merasa bermanfaat karena kutipan tag dapat membantu pembaca untuk memeriksa pemahaman tentang jargon saat membaca. Beberapa kutipan ini mungkin pantas diedit juga, jadi mereka juga layak menjadi seorang humas, IMHO.←
p < .05 p > .05p>.05 biasanya menyiratkan seseorang seharusnya tidak menolak hipotesis nol . Sebaliknya, kesalahan tipe-i atau positif palsu terjadi ketika seseorang menolak nol karena kesalahan pengambilan sampel atau beberapa kejadian tidak biasa lainnya yang menghasilkan sampel yang sebelumnya tidak mungkin (biasanya dengan ) telah diambil secara acak dari suatu populasi di mana nol itu benar. Hasil dengan yang disebut false positive tampaknya mencerminkan kesalahpahaman dari uji hipotesis nolp<.05 p>.05 ing (NHST). Kesalahpahaman tidak biasa dalam literatur penelitian yang diterbitkan, karena NHST terkenal kontra-intuitif. Ini adalah salah satu seruan dari invasi bayesian (yang saya dukung, tapi belum ikuti ... belum). Saya telah bekerja dengan kesan yang salah seperti ini sendiri sampai saat ini, jadi saya bersimpati dengan sepenuh hati.
@ DavidVobinson benar dalam mengamati bahwa bukan probabilitas nol menjadi salah dalam NHST yang sering terjadi. Ini adalah (setidaknya) salah satu dari Goodman (2008) "Kotornya Dozen" kesalahpahaman tentang nilai (lihat juga Hurlbert & Lombardi, 2009 ) . Dalam NHST, adalah probabilitas bahwa seseorang akan mengambil sampel acak di masa depan dengan cara yang sama yang akan menunjukkan hubungan atau perbedaan (atau ukuran efek apa pun)p p p pp p p sedang diuji terhadap nol, jika varietas lain dari ukuran efek ada ...?) setidaknya berbeda dari hipotesis nol sebagai sampel (s) dari populasi yang sama (s) seseorang telah diuji untuk sampai pada nilai diberikan , jika nol benar. Artinya, adalah probabilitas untuk mendapatkan sampel seperti milik Anda yang diberikan nol ; itu tidak mencerminkan probabilitas nol - setidaknya, tidak secara langsung. Sebaliknya, metode Bayesian bangga dengan formulasi analisis statistik mereka sebagai fokus pada estimasi bukti untuk atau terhadap teori sebelumnya dari efek yang diberikan data , yang mereka berpendapat adalah pendekatan yang lebih menarik secara intuitif ( Wagenmakers, 2007p p ) , di antara kelebihan lainnya, dan mengesampingkan kerugian yang bisa diperdebatkan. (Agar adil, lihat “ Apa kontra analisis Bayesian? ” Anda juga berkomentar mengutip artikel yang mungkin menawarkan beberapa jawaban bagus di sana: Moyé, 2008; Hurlbert & Lombardi, 2009. )
Arguably, hipotesis nol seperti yang dinyatakan secara harfiah sering lebih cenderung daripada tidak salah, karena hipotesis nol paling umum, secara harfiah hipotesis efek nol . (Untuk beberapa contoh tandingan, lihat jawaban untuk: " Apakah set data besar tidak pantas untuk pengujian hipotesis? ") Masalah filosofis seperti efek kupu-kupu mengancam validitas literal dari hipotesis semacam itu; maka nol berguna paling umum sebagai dasar perbandingan untuk hipotesis alternatif dari beberapa efek nol. Hipotesis alternatif semacam itu mungkin tetap lebih masuk akal daripada nol setelah data dikumpulkan yang tidak mungkin jika nol itu benar. Oleh karena itu para peneliti biasanya menyimpulkan dukungan untuk hipotesis alternatif dari bukti terhadap nol, tetapi bukan itu yang p-nilai dikuantifikasi secara langsung ( Wagenmakers, 2007 ) .
Seperti yang Anda duga, signifikansi statistik adalah fungsi dari ukuran sampel , serta ukuran efek dan konsistensi. (Lihat jawaban @ gung untuk pertanyaan baru-baru ini, " Bagaimana uji-t signifikan secara statistik jika perbedaan rata-rata hampir 0? ") Pertanyaan yang sering ingin kami tanyakan dari data kami adalah, "Apa efek darip p
x
ony
? " Karena berbagai alasan (termasuk, IMO, program pendidikan yang salah paham dan kurang dalam statistik, terutama seperti yang diajarkan oleh non-ahli statistik), kita sering menemukan diri kita sendiri yang secara literal menanyakan pertanyaan terkait yang longgar, "Berapa probabilitas pengambilan sampel data seperti tambang secara acak dari populasi di manax
tidak mempengaruhiy
? "Ini adalah perbedaan esensial antara estimasi ukuran efek dan pengujian signifikansi. Nilai hanya menjawab pertanyaan terakhir secara langsung, tetapi beberapa profesional (@rpierce mungkin bisa memberi Anda daftar yang lebih baik daripada saya; maafkan saya karena menyeret Anda ke ini !) berpendapat bahwa para peneliti salah membaca sebagai jawaban atas pertanyaan ukuran efek sebelumnya terlalu sering, saya khawatir saya harus setuju.pUntuk merespons lebih langsung mengenai arti , itu adalah bahwa probabilitas pengambilan sampel data secara acak dari populasi yang nolnya benar, tetapi yang menunjukkan hubungan atau perbedaan yang berbeda dari yang dijelaskan oleh nol secara harfiah paling tidak selebar dan konsisten dengan margin data Anda ... <tarik napas> ... adalah antara 5–95%. Orang tentu dapat berpendapat ini adalah konsekuensi dari ukuran sampel, karena meningkatkan ukuran sampel meningkatkan kemampuan seseorang untuk mendeteksi ukuran efek yang kecil dan tidak konsisten dan membedakannya dari nol, katakanlah, efek nol dengan kepercayaan melebihi 5%. Namun, efek ukuran kecil dan tidak konsisten mungkin atau mungkin tidak signifikan secara pragmatis ( signifikan secara statistik≠.05<p<.95 ≠ - lain dari Goodman (2008) selusin kotor); ini jauh lebih tergantung pada makna data, yang signifikansi statistik hanya menyangkut dirinya sendiri sampai batas tertentu. Lihat jawaban saya di atas .
Karena data biasanya harus mewakili pengamatan faktual secara empiris, mereka tidak boleh salah; hanya kesimpulan tentang mereka yang harus menghadapi risiko ini, idealnya. (Kesalahan pengukuran terjadi juga tentu saja, tetapi masalah itu agak di luar cakupan jawaban ini, jadi selain dari menyebutkannya di sini, saya akan membiarkannya sendiri kalau tidak.) Beberapa risiko selalu ada membuat kesimpulan positif palsu tentang nol yang kurang bermanfaat daripada hipotesis alternatif, setidaknya kecuali penyerang tahu nol itu benar. Hanya dalam keadaan agak sulit untuk memahami bahwa nol secara literal benar maka kesimpulan yang mendukung hipotesis alternatif pasti salah ... setidaknya, sejauh yang dapat saya bayangkan saat ini.
Jelas, penggunaan luas atau konvensi bukanlah otoritas terbaik pada validitas epistemik atau inferensial. Bahkan sumber daya yang diterbitkan pun bisa keliru; lihat misalnya Kekeliruan dalam definisi nilai-p . Referensi Anda ( Hurlbert & Lombardi, 2009 ) menawarkan beberapa penjelasan menarik tentang prinsip ini juga (halaman 322):
Contoh kasus lain: frasa ini dalam artikel Nature News yang terbaru ( Nuzzo, 2014 ) : "Nilai P, indeks umum untuk kekuatan bukti ..." Lihat Wagenmakers ' (2007, halaman 787) "Masalah 3: Nilai Tidak Mengkuantifikasi Bukti Statistik "... Namun, @MichaelLew ( Lew, 2013 ) tidak setuju dalam cara yang mungkin berguna bagi Anda: ia menggunakan nilai untuk mengindeks fungsi kemungkinan. Namun, sebanyak sumber-sumber yang dipublikasikan ini saling bertentangan, setidaknya satu pasti salah! (Pada tingkat tertentu, saya pikir ...) Tentu saja, ini tidak seburuk "tidak dapat dipercaya" per se.pp p Saya harap saya bisa membujuk Michael untuk berdebat di sini dengan memberi tag dia seperti yang saya miliki (tapi saya tidak yakin tag pengguna mengirim pemberitahuan ketika diedit - saya tidak berpikir Anda di OP melakukannya). Dia mungkin satu-satunya yang bisa menyelamatkan Nuzzo - bahkan Nature sendiri! Bantu kami Obi-Wan! (Dan maafkan saya jika jawaban saya di sini menunjukkan bahwa saya masih gagal memahami implikasi dari pekerjaan Anda, yang saya yakin saya miliki dalam hal apa pun ...) BTW, Nuzzo juga menawarkan pertahanan diri yang menarik dan penolakan terhadap "Masalah 3" Wagenmaakers: lihat figur "Kemungkinan penyebab" Nuzzo dan kutipan yang mendukung ( Goodman, 2001 , 1992; Gorroochurn, Hodge, Heiman, Durner, & Greenberg, 2007 ) . Ini mungkin hanya berisi jawaban Anda
Re: pertanyaan pilihan ganda Anda, saya pilih
d
. Anda mungkin telah salah menafsirkan beberapa konsep di sini, tetapi Anda tentu tidak sendirian jika demikian, dan saya akan menyerahkan penilaian kepada Anda, karena hanya Anda yang tahu apa yang benar-benar Anda yakini. Misinterpretasi menyiratkan sejumlah kepastian, sedangkan mengajukan pertanyaan menyiratkan sebaliknya, dan dorongan untuk mempertanyakan ketika ketidakpastian itu cukup terpuji dan jauh dari mana-mana, sayangnya. Masalah sifat manusia ini membuat kesalahan dari kebaktian kita sayangnya tidak berbahaya, dan layak menerima keluhan seperti yang dirujuk di sini. (Sebagian berkat Anda!) Namun, proposal Anda juga tidak sepenuhnya benar.Referensi
- Goodman, SN (1992). Sebuah komentar tentang replikasi, nilai- P dan bukti. Statistik dalam Kedokteran, 11 (7), 875–879.
- Goodman, SN (2001). Nilai- P dan Bayes: Sebuah proposal sederhana. Epidemiologi, 12 (3), 295–297. Diperoleh dari http://swfsc.noaa.gov/uploadedFiles/Divisions/PRD/Programs /ETP_Cetacean_Assessment/Of_P_Values_and_Bayes__A_Modest_Proposal.6.pdf .
- Goodman, S. (2008). Selusin kotor: Dua Belas P- nilai kesalahpahaman. Seminar dalam Hematologi, 45 (3), 135-140. Diperoleh dari http://xa.yimg.com/kq/groups/18751725/636586767/name/twelve+P+value+misconceptions.pdf .
- Gorroochurn, P., Hodge, SE, Heiman, GA, Durner, M., & Greenberg, DA (2007). Non-replikasi studi asosiasi: "pseudo-kegagalan" untuk mereplikasi? Genetika dalam Kedokteran, 9 (6), 325–331. Diperoleh dari http://www.nature.com/gim/journal/v9/n6/full/gim200755a.html .
- Hurlbert, SH, & Lombardi, CM (2009). Keruntuhan akhir kerangka teori keputusan Neyman-Pearson dan kebangkitan neoFisherian. Annales Zoologici Fennici, 46 (5), 311–349. Diperoleh dari http://xa.yimg.com/kq/groups/1542294/508917937/name/HurlbertLombardi2009AZF.pdf .
- Lew, MJ (2013). Ke P atau tidak ke P: Tentang sifat bukti nilai-P dan tempatnya dalam inferensi ilmiah. arXiv: 1311.0081 [stat.ME]. Diterima darihttp://arxiv.org/abs/1311.0081 .
- Moyé, LA (2008). Bayesians dalam uji klinis: Tidur di saklar. Statistik dalam Kedokteran, 27 (4), 469-482.
- Nuzzo, R. (2014, 12 Februari). Metode ilmiah: Kesalahan statistik. Berita Alam, 506 (7487). Diperoleh dari http://www.nature.com/news/scientific-method-statribution-errors-1.14700 .
- Wagenmakers, EJ (2007). Solusi praktis untuk masalah meresap nilai p . Buletin & Ulasan Psikonomis , 14 (5), 779–804. Diperoleh dari http://www.brainlife.org/reprint/2007/Wagenmakers_EJ071000.pdf .
sumber