Pertanyaan:
Satu kesalahpahaman umum dari nilai-p adalah bahwa mereka mewakili probabilitas hipotesis nol menjadi benar. Saya tahu itu tidak benar dan saya tahu bahwa nilai-p hanya mewakili probabilitas menemukan sampel yang ekstrim seperti ini, mengingat bahwa hipotesis nol itu benar. Namun, secara intuitif, seseorang harus dapat memperoleh yang pertama dari yang terakhir. Pasti ada alasan mengapa tidak ada yang melakukan ini. Informasi apa yang kita lewatkan yang membatasi kita untuk memperoleh kemungkinan hipotesis benar dari nilai-p dan data terkait?
Contoh:
Hipotesis kami adalah "Vitamin D memengaruhi suasana hati" (hipotesis nol menjadi "tidak berpengaruh"). Katakanlah kita melakukan studi statistik yang sesuai dengan 1000 orang dan menemukan korelasi antara suasana hati dan kadar vitamin. Semua hal lain dianggap sama, nilai p 0,01 menunjukkan kemungkinan hipotesis benar lebih tinggi daripada nilai p 0,05. Katakanlah kita mendapatkan nilai p 0,05. Mengapa kita tidak dapat menghitung probabilitas aktual bahwa hipotesis kita benar? Informasi apa yang kita lewatkan?
Terminologi alternatif untuk ahli statistik sering:
Jika Anda menerima premis dari pertanyaan saya, Anda dapat berhenti membaca di sini. Berikut ini adalah untuk orang-orang yang menolak untuk menerima bahwa suatu hipotesis dapat memiliki interpretasi probabilitas. Mari kita lupakan terminologi sejenak. Sebagai gantinya...
Katakanlah Anda bertaruh dengan teman Anda. Teman Anda menunjukkan kepada Anda seribu studi statistik tentang mata pelajaran yang tidak terkait. Untuk setiap studi Anda hanya diperbolehkan untuk melihat nilai-p, ukuran sampel, dan standar deviasi sampel. Untuk setiap penelitian, teman Anda menawarkan beberapa peluang untuk bertaruh bahwa hipotesis yang disajikan dalam penelitian itu benar. Anda dapat memilih untuk mengambil taruhan atau tidak menerimanya. Setelah Anda membuat taruhan untuk semua 1000 studi, oracle naik ke atas Anda dan memberi tahu Anda hipotesis mana yang benar. Informasi ini memungkinkan Anda untuk menyelesaikan taruhan. Klaim saya adalah bahwa ada strategi optimal untuk game ini. Dalam pandangan dunia saya itu sama dengan mengetahui probabilitas untuk hipotesis itu benar, tetapi jika kita tidak setuju tentang itu, tidak apa-apa. Dalam hal ini kita bisa membicarakan cara-cara menggunakan nilai-p untuk memaksimalkan ekspektasi taruhan.
sumber
Jawaban:
Jawaban lain semuanya filosofis, tetapi saya tidak mengerti mengapa ini diperlukan di sini. Mari kita perhatikan contoh Anda:
Untuk , mendapatkan sesuai dengan koefisien korelasi sampel . Hipotesis nol adalah . Hipotesis alternatif adalah .p = 0,05 ρ = 0,062 H 0 : ρ = 0 H 1 : ρ ≠ 0n = 1000 p = 0,05 ρ^= 0,062 H0:ρ=0 H1:ρ≠0
Nilai-p adalah dan kita dapat menghitungnya berdasarkan sampling distribusi bawah nol; tidak ada lagi yang dibutuhkan.ρ
Anda ingin menghitung
dan untuk ini Anda membutuhkan sejumlah bahan tambahan. Memang, dengan menerapkan teorema Bayes kita dapat menulis ulang sebagai berikut:
Jadi untuk menghitung probabilitas posterior dari nol Anda perlu memiliki dua hal tambahan:
Jika Anda bersedia berasumsi bahwa --- walaupun saya pribadi tidak yakin mengapa ini harus menjadi asumsi yang bermakna, --- Anda masih perlu mengasumsikan distribusi bawah alternatif. Dalam hal ini, Anda akan dapat menghitung sesuatu yang disebut Bayes factor :ρP(ρ=0)=0.5 ρ
Seperti yang Anda lihat, faktor Bayes tidak tidak tergantung pada probabilitas sebelumnya dari nol, tetapi tidak tergantung pada probabilitas sebelumnya dari (di bawah alternatif).ρ
[Harap dicatat bahwa nominator dalam faktor Bayes bukan nilai-p, karena kesetaraan alih-alih tanda ketidaksetaraan. Jadi ketika menghitung Bayes factor atau kita tidak menggunakan nilai-p itu sendiri . Tapi kami tentu saja menggunakan distribusi sampel .]P ( ρP(H0) P(ρ^|ρ=0)
sumber
Quid est veritas?
Saya dapat menerima jawaban @ amoeba semudah poster aslinya. Saya memperingatkan, bagaimanapun, bahwa dalam semua pekerjaan saya, saya belum menemukan analisis Bayesian yang menghitung "probabilitas bahwa hipotesis nol itu benar". Dan kesimpulan seperti itu akan menarik banyak argumen dari mereka yang meninjau pekerjaan Anda! Secara filosofis, memang demikianbawa kita kembali ke pertanyaan: "apa itu kebenaran?" Mungkin "kebenaran" tidak dapat dibantah, bahkan untuk bukti itu sendiri. Statistik adalah alat ilmu pengetahuan untuk mengukur ketidakpastian. Saya masih berpendapat bahwa, sementara bukti bisa dengan kuat menunjukkan kebenaran, selalu ada risiko temuan positif palsu, dan Ahli Statistik yang Baik harus melaporkan risiko ini. Bahkan dalam pengujian teoretik keputusan Bayesian, aturan keputusan diberikan sehingga kami dapat menerima atau menolak hipotesis berdasarkan faktor Bayes yang kira-kira sebanding dengan , tetapi keyakinan kami tidak pernah atau bahkan ketika keputusan kami dibuat. Teori keputusan memberi kita cara untuk "maju" dengan pengetahuan parsial dan menerima risiko-risiko ini.1 0Pr(H0|X) 1 0
Bagian dari alasan untuk pengujian statistik hipotesis nol (NHST) dan nilai- adalah filosofi pemalsuan Karl Popper . Dalam hal ini: asumsi kritis adalah bahwa "kebenaran" tidak pernah diketahui, kita hanya dapat mengurangi hipotesis lainnya. Kritik yang menarik dan valid dari NHST adalah bahwa Anda dipaksa untuk membuat asumsi yang konyol, seperti bahwa merokok tidak menyebabkan kanker ketika Anda benar-benar tertarik pada penelitian deskriptif (tidak inferensial): dan Anda hanya menggambarkan berapa banyak penyebab kanker yang menyebabkan kanker. .p
Kritik sebaliknya telah diterapkan pada penelitian Bayesian di mana Anda dapat dengan bebas menerapkan prior: Dennis Lindley mengatakan, "Dengan probabilitas 0 sebelumnya bahwa bulan terbuat dari keju, para astronot yang kembali dengan tangan penuh keju masih belum dapat meyakinkan."
Informasi yang hilang untuk menentukan apakah hipotesis nol itu benar, sepele, pengetahuan tentang apakah hipotesis nol itu benar. Ironisnya, ketika berfokus pada statistik deskriptif, kita dapat menerima rentang efek yang dapat ditoleransi dan menyimpulkan dengan agak kuat bahwa tren itu mungkin benar: tetapi pengujian statistik tidak mengarahkan kita pada temuan semacam itu. Bahkan dalam inferensi Bayesian, tidak ada data yang akan mengarah ke posterior singular tanpa memiliki beberapa masalah metodologis, jadi penggabungan prior tidak memperbaiki masalah ini.
sumber
Ada dua upaya untuk melakukan persis apa yang Anda katakan dalam sejarah statistik, Bayesian dan Fiducial. RA Fisher mendirikan dua sekolah pemikiran statistik, sekolah Likelihoodist dibangun di sekitar metode kemungkinan maksimum dan Fidusia, yang berakhir dengan kegagalan tetapi yang berusaha untuk melakukan apa yang Anda inginkan.
Jawaban singkat mengapa gagal adalah bahwa distribusi probabilitasnya tidak akhirnya berintegrasi ke persatuan. Pelajarannya, pada akhirnya, adalah bahwa probabilitas sebelumnya adalah hal yang diperlukan untuk menciptakan apa yang ingin Anda ciptakan. Memang, Anda akan segera menuju jalan salah satu ahli statistik terhebat dalam sejarah dan lebih dari beberapa hebat lainnya meninggal dengan harapan untuk menyelesaikan masalah ini. Jika ditemukan itu akan menempatkan metode hipotesis nol setara dengan metode Bayes dalam hal jenis masalah yang bisa mereka pecahkan. Memang, itu akan mendorong melewati Bayes kecuali di mana informasi sebelumnya yang nyata ada.
Anda juga ingin berhati-hati dengan pernyataan Anda bahwa nilai-p menunjukkan kemungkinan alternatif yang lebih tinggi. Itu hanya berlaku di sekolah Fisherian Likelihoodist. Sama sekali tidak benar di sekolah Frequentist Pearson-Neyman. Taruhan Anda di bagian bawah tampaknya merupakan taruhan Pearson-Neyman sementara nilai-p Anda tidak kompatibel karena berasal dari sekolah Fisher.
Untuk menjadi amal saya akan berasumsi, bahwa untuk contoh Anda, bahwa tidak ada bias publikasi dan hanya hasil signifikan yang muncul dalam jurnal yang menciptakan tingkat penemuan palsu yang tinggi. Saya memperlakukan ini sebagai sampel acak dari semua penelitian yang dilakukan, terlepas dari hasilnya. Saya berpendapat bahwa peluang taruhan Anda tidak akan koheren dalam arti kata klasik de Finetti.
Di dunia de Finetti, taruhan adalah koheren jika bandarnya tidak bisa dimainkan oleh pemain sehingga mereka menghadapi kerugian yang pasti. Dalam konstruksi yang paling sederhana, itu seperti solusi untuk masalah memotong kue. Satu orang memotong bagian itu menjadi dua, tetapi orang lain memilih bagian mana yang mereka inginkan. Dalam konstruksi ini satu orang akan menyatakan harga untuk taruhan pada setiap hipotesis, tetapi orang lain akan memilih untuk membeli atau menjual taruhan. Intinya, Anda bisa menjual nol. Agar optimal, peluangnya harus benar-benar adil. Nilai-P dilakukan untuk tidak mengarah pada peluang yang adil.
Untuk mengilustrasikan ini, pertimbangkan penelitian oleh Wetzels, dkk di http://ejwagenmakers.com/2011/WetzelsEtAl2011_855.pdf
Kutipan yang adalah: Ruud Wetzels, Dora Matzke, Michael D. Lee, Jeffrey N. Rounder, Geoffrey J. Iverson dan Eric-Jan Wagenmakers. Bukti Statistik dalam Psikologi Eksperimental: Perbandingan Empiris Menggunakan 855 Uji t. Perspektif tentang Ilmu Psikologis. 6 (3) 291-298. 2011
Ini adalah perbandingan langsung dari 855 uji-t yang diterbitkan menggunakan faktor Bayes untuk mem-bypass masalah distribusi sebelumnya. Dalam 70% dari nilai-p antara 0,05 dan 0,01, faktor Bayes paling baik, anekdotal. Ini disebabkan oleh bentuk matematika yang digunakan oleh Frequentists untuk menyelesaikan masalah.
Metode hipotesis nol mengasumsikan bahwa model itu benar dan dengan konstruksi mereka menggunakan distribusi statistik minimax daripada distribusi probabilitas. Kedua faktor ini memengaruhi perbedaan antara solusi Bayesian dan non-Bayesian. Pertimbangkan sebuah studi di mana metode Bayesian mengevaluasi probabilitas posterior hipotesis sebagai tiga persen. Bayangkan bahwa nilai p kurang dari lima persen. Keduanya benar karena tiga persen kurang dari lima persen. Meskipun demikian, nilai-p bukan probabilitas. Ini hanya menyatakan nilai maksimum yang bisa menjadi probabilitas melihat data, bukan probabilitas aktual suatu hipotesis benar atau salah. Memang, dalam konstruksi nilai-p, Anda tidak dapat membedakan antara efek karena kebetulan dengan nol benar dan nol palsu dengan data yang baik.
Jika Anda melihat studi Wetzel, Anda akan mencatat bahwa sangat jelas bahwa peluang yang tersirat oleh nilai-p tidak cocok dengan peluang yang tersirat oleh ukuran Bayesian. Karena ukuran Bayesian dapat diterima dan koheren, dan non-Bayesian tidak koheren, tidak aman untuk mengasumsikan peta nilai-p dengan probabilitas sebenarnya. Asumsi paksa bahwa nol itu valid memberikan probabilitas jangkauan yang bagus, tetapi tidak menghasilkan probabilitas perjudian yang bagus.
Untuk memahami mengapa, pertimbangkan aksioma pertama Cox bahwa masuk akal suatu hipotesis dapat dideskripsikan dengan bilangan real. Secara implisit, ini berarti bahwa semua hipotesis memiliki bilangan real yang terkait dengan kemungkinannya. Dalam metode hipotesis nol, hanya nol yang memiliki bilangan real yang dikaitkan dengan kemungkinannya. Hipotesis alternatif tidak memiliki pengukuran yang dilakukan dan tentu saja tidak melengkapi probabilitas untuk mengamati data mengingat bahwa nol itu benar. Memang, jika nol itu benar, maka komplemen itu salah dengan asumsi tanpa memperhatikan data.
Jika Anda membangun probabilitas menggunakan nilai-p sebagai dasar pengukuran Anda, maka Bayesian menggunakan pengukuran Bayesian akan selalu mampu mendapatkan keuntungan atas Anda. Jika Bayesian mengatur peluang maka teori keputusan Pearson dan Neyman akan memberikan pernyataan bertaruh atau tidak bertaruh, tetapi mereka tidak akan dapat menentukan jumlah yang akan dipertaruhkan. Karena peluang Bayesian adil, keuntungan yang diharapkan dari menggunakan metode Pearson dan Neyman adalah nol.
Memang, studi Wetzel benar-benar apa yang Anda bicarakan, tetapi dengan 145 taruhan lebih sedikit. Jika Anda melihat tabel tiga, Anda akan melihat beberapa studi di mana Frequentist menolak nol, tetapi Bayesian menemukan bahwa probabilitas lebih menyukai nol.
sumber
Analisis frequentist tidak dapat memberi Anda probabilitas bahwa hipotesis tertentu adalah benar (atau salah) karena tidak memiliki frekuensi jangka panjang (itu benar atau tidak) sehingga kami tidak dapat menetapkan probabilitas untuk itu (kecuali mungkin 0 atau 1 ). Jika Anda ingin mengetahui probabilitas bahwa suatu hipotesis tertentu benar, kita perlu mengadopsi kerangka kerja Bayesian (di mana itu langsung, kita hanya perlu mempertimbangkan probabilitas sebelumnya, dll.).
Frequentists dapat menemukan strategi yang optimal untuk bertindak pada tes hipotesis nol ( kerangka Neyman-Pearson ) tetapi mereka tidak dapat menerjemahkannya menjadi probabilitas bahwa hipotesis itu benar, tetapi hanya karena definisi mereka tentang probabilitas.
sumber
Masalah dalam pengaturan Anda adalah Oracle. Biasanya tidak datang untuk menyelesaikan taruhan. Katakanlah, Anda bertaruh bahwa kemungkinan benar merokok menyebabkan kanker adalah 97%. Kapan Oracle ini datang untuk menyelesaikan taruhan? Tidak pernah. Lalu bagaimana Anda membuktikan bahwa strategi optimal Anda optimal?
Namun, jika Anda menghapus Oracle, dan memperkenalkan agen lain seperti pesaing dan pelanggan, maka akan ada strategi yang optimal. Saya khawatir ini tidak akan didasarkan pada nilai-p. Itu akan lebih mirip dengan pendekatan Gosset dengan fungsi kehilangan. Misalnya, Anda dan pesaing Anda di sektor pertanian bertaruh bahwa ramalan cuaca itu benar. Siapa pun yang memilih strategi yang lebih baik akan menghasilkan lebih banyak uang. Tidak perlu di Oracle, dan taruhan diselesaikan di pasar. Anda tidak dapat mendasarkan strategi pada nilai-p di sini, Anda harus memperhitungkan kerugian dan keuntungan dalam dolar.
sumber
Untuk utas tentang nilai-p lihat lihat Kesalahpahaman nilai-P?
sumber