Menggunakan p-value untuk menghitung probabilitas hipotesis benar; apa lagi yang dibutuhkan?

9

Pertanyaan:

Satu kesalahpahaman umum dari nilai-p adalah bahwa mereka mewakili probabilitas hipotesis nol menjadi benar. Saya tahu itu tidak benar dan saya tahu bahwa nilai-p hanya mewakili probabilitas menemukan sampel yang ekstrim seperti ini, mengingat bahwa hipotesis nol itu benar. Namun, secara intuitif, seseorang harus dapat memperoleh yang pertama dari yang terakhir. Pasti ada alasan mengapa tidak ada yang melakukan ini. Informasi apa yang kita lewatkan yang membatasi kita untuk memperoleh kemungkinan hipotesis benar dari nilai-p dan data terkait?


Contoh:

Hipotesis kami adalah "Vitamin D memengaruhi suasana hati" (hipotesis nol menjadi "tidak berpengaruh"). Katakanlah kita melakukan studi statistik yang sesuai dengan 1000 orang dan menemukan korelasi antara suasana hati dan kadar vitamin. Semua hal lain dianggap sama, nilai p 0,01 menunjukkan kemungkinan hipotesis benar lebih tinggi daripada nilai p 0,05. Katakanlah kita mendapatkan nilai p 0,05. Mengapa kita tidak dapat menghitung probabilitas aktual bahwa hipotesis kita benar? Informasi apa yang kita lewatkan?


Terminologi alternatif untuk ahli statistik sering:

Jika Anda menerima premis dari pertanyaan saya, Anda dapat berhenti membaca di sini. Berikut ini adalah untuk orang-orang yang menolak untuk menerima bahwa suatu hipotesis dapat memiliki interpretasi probabilitas. Mari kita lupakan terminologi sejenak. Sebagai gantinya...

Katakanlah Anda bertaruh dengan teman Anda. Teman Anda menunjukkan kepada Anda seribu studi statistik tentang mata pelajaran yang tidak terkait. Untuk setiap studi Anda hanya diperbolehkan untuk melihat nilai-p, ukuran sampel, dan standar deviasi sampel. Untuk setiap penelitian, teman Anda menawarkan beberapa peluang untuk bertaruh bahwa hipotesis yang disajikan dalam penelitian itu benar. Anda dapat memilih untuk mengambil taruhan atau tidak menerimanya. Setelah Anda membuat taruhan untuk semua 1000 studi, oracle naik ke atas Anda dan memberi tahu Anda hipotesis mana yang benar. Informasi ini memungkinkan Anda untuk menyelesaikan taruhan. Klaim saya adalah bahwa ada strategi optimal untuk game ini. Dalam pandangan dunia saya itu sama dengan mengetahui probabilitas untuk hipotesis itu benar, tetapi jika kita tidak setuju tentang itu, tidak apa-apa. Dalam hal ini kita bisa membicarakan cara-cara menggunakan nilai-p untuk memaksimalkan ekspektasi taruhan.

Atte Juvonen
sumber
Lihat, misalnya: math.tut.fi/~piche/bayes/notes06.pdf
klumbard
13
"Informasi apa yang kita lewatkan" - kemungkinan sebelumnya H0 benar. Itu hanya teorema Bayes; untuk menghitung posterior, Anda harus memiliki prior.
amoeba
1
@ AdamO Saya tidak melihat bagaimana itu mengikuti aturan Cromwell, yaitu tentang prior, bukan posterior. Saya pikir Anda mungkin membingungkan "kebenaran" dengan "pengetahuan tertentu". Jika kita tertarik pada pengetahuan tertentu, kita akan menggunakan logika, bukan penalaran probabilistik.
Dikran Marsupial
1
@ AdamO saya tidak mengikuti. OP bertanya "Informasi apa yang kita lewatkan yang membatasi kita untuk memperoleh kemungkinan hipotesis itu benar dari nilai-p dan data terkait?" Apa kaitan probabilitas 1 dan mengetahui sesuatu sebagai kebenaran terkait dengan itu?
amoeba
1
Menanggapi komentar Anda sebelumnya @ Altte: baik, jika seseorang ingin menganggap yang sebelumnya 0,5 maka baik-baik saja, tapi saya tidak melihat mengapa ini harus selalu menjadi asumsi yang bermakna. Bagaimanapun, itu adalah asumsi.
amoeba

Jawaban:

5

Jawaban lain semuanya filosofis, tetapi saya tidak mengerti mengapa ini diperlukan di sini. Mari kita perhatikan contoh Anda:

Hipotesis kami adalah "Vitamin D memengaruhi suasana hati" (hipotesis nol menjadi "tidak berpengaruh"). Katakanlah kita melakukan studi statistik yang sesuai dengan 1000 orang dan menemukan korelasi antara suasana hati dan kadar vitamin. Semua hal lain dianggap sama, nilai p 0,01 menunjukkan kemungkinan hipotesis benar lebih tinggi daripada nilai p 0,05. Katakanlah kita mendapatkan nilai p 0,05. Mengapa kita tidak dapat menghitung probabilitas aktual bahwa hipotesis kita benar? Informasi apa yang kita lewatkan?

Untuk , mendapatkan sesuai dengan koefisien korelasi sampel . Hipotesis nol adalah . Hipotesis alternatif adalah .p = 0,05 ρ = 0,062 H 0 : ρ = 0 H 1 : ρ 0n=1000p=0.05ρ^=0.062H0:ρ=0H1:ρ0

Nilai-p adalah dan kita dapat menghitungnya berdasarkan sampling distribusi bawah nol; tidak ada lagi yang dibutuhkan.ρ

p-value=P(|ρ^|0.062|ρ=0),
ρ^

Anda ingin menghitung

P(H0|data)=P(ρ=0|ρ^=0.062),

dan untuk ini Anda membutuhkan sejumlah bahan tambahan. Memang, dengan menerapkan teorema Bayes kita dapat menulis ulang sebagai berikut:

P(ρ^=0.062|ρ=0)P(ρ=0)P(ρ^=0.062|ρ=0)P(ρ=0)+P(ρ^=0.062|ρ0)(1P(ρ=0)).

Jadi untuk menghitung probabilitas posterior dari nol Anda perlu memiliki dua hal tambahan:

  1. Sebelumnya hipotesis nol itu benar: .P(ρ=0)
  2. Asumsi tentang bagaimana didistribusikan jika hipotesis alternatif adalah benar. Ini diperlukan untuk menghitung istilah .ρP(ρ^=0.062|ρ0)

Jika Anda bersedia berasumsi bahwa --- walaupun saya pribadi tidak yakin mengapa ini harus menjadi asumsi yang bermakna, --- Anda masih perlu mengasumsikan distribusi bawah alternatif. Dalam hal ini, Anda akan dapat menghitung sesuatu yang disebut Bayes factor :ρP(ρ=0)=0.5ρ

B=P(ρ^=0.062|ρ=0)P(ρ^=0.062|ρ0).

Seperti yang Anda lihat, faktor Bayes tidak tidak tergantung pada probabilitas sebelumnya dari nol, tetapi tidak tergantung pada probabilitas sebelumnya dari (di bawah alternatif).ρ

[Harap dicatat bahwa nominator dalam faktor Bayes bukan nilai-p, karena kesetaraan alih-alih tanda ketidaksetaraan. Jadi ketika menghitung Bayes factor atau kita tidak menggunakan nilai-p itu sendiri . Tapi kami tentu saja menggunakan distribusi sampel .]P ( ρP(H0)P(ρ^|ρ=0)

amuba
sumber
Pertanyaannya adalah tentang "probabilitas bahwa benar '', apakah Anda berpikir bahwa orang Bayan menghitung ini? Atau apakah mereka menghitung '' kredibilitas '' dari menjadi benar? Yaitu apakah mereka menghitung tingkat kepercayaan mereka bahwa benar (mengingat data yang mereka amati) atau apakah mereka menghitung probabilitas bahwa benar?H 0 H 0 H 0H0H0H0H0
2
Saya tidak mengerti perbedaan yang Anda buat @ fcop. Dalam pandangan dunia Bayesian, probabilitas adalah tingkat kepercayaan ( mis. Lihat di sini ).
amoeba
Lalu mengapa mereka menyebutnya 'kredibilitas'?
1
Maaf @ fcop, saya tidak ingin berdiskusi filosofis atau semantik di sini. OP menanyakan apa yang diperlukan untuk menghitung dan saya menjawab pertanyaan khusus ini dari sudut pandang matematika. P(H0)
amoeba
7

Quid est veritas?

Saya dapat menerima jawaban @ amoeba semudah poster aslinya. Saya memperingatkan, bagaimanapun, bahwa dalam semua pekerjaan saya, saya belum menemukan analisis Bayesian yang menghitung "probabilitas bahwa hipotesis nol itu benar". Dan kesimpulan seperti itu akan menarik banyak argumen dari mereka yang meninjau pekerjaan Anda! Secara filosofis, memang demikianbawa kita kembali ke pertanyaan: "apa itu kebenaran?" Mungkin "kebenaran" tidak dapat dibantah, bahkan untuk bukti itu sendiri. Statistik adalah alat ilmu pengetahuan untuk mengukur ketidakpastian. Saya masih berpendapat bahwa, sementara bukti bisa dengan kuat menunjukkan kebenaran, selalu ada risiko temuan positif palsu, dan Ahli Statistik yang Baik harus melaporkan risiko ini. Bahkan dalam pengujian teoretik keputusan Bayesian, aturan keputusan diberikan sehingga kami dapat menerima atau menolak hipotesis berdasarkan faktor Bayes yang kira-kira sebanding dengan , tetapi keyakinan kami tidak pernah atau bahkan ketika keputusan kami dibuat. Teori keputusan memberi kita cara untuk "maju" dengan pengetahuan parsial dan menerima risiko-risiko ini.1 0Pr(H0|X)10

Bagian dari alasan untuk pengujian statistik hipotesis nol (NHST) dan nilai- adalah filosofi pemalsuan Karl Popper . Dalam hal ini: asumsi kritis adalah bahwa "kebenaran" tidak pernah diketahui, kita hanya dapat mengurangi hipotesis lainnya. Kritik yang menarik dan valid dari NHST adalah bahwa Anda dipaksa untuk membuat asumsi yang konyol, seperti bahwa merokok tidak menyebabkan kanker ketika Anda benar-benar tertarik pada penelitian deskriptif (tidak inferensial): dan Anda hanya menggambarkan berapa banyak penyebab kanker yang menyebabkan kanker. .p

Kritik sebaliknya telah diterapkan pada penelitian Bayesian di mana Anda dapat dengan bebas menerapkan prior: Dennis Lindley mengatakan, "Dengan probabilitas 0 sebelumnya bahwa bulan terbuat dari keju, para astronot yang kembali dengan tangan penuh keju masih belum dapat meyakinkan."

Informasi yang hilang untuk menentukan apakah hipotesis nol itu benar, sepele, pengetahuan tentang apakah hipotesis nol itu benar. Ironisnya, ketika berfokus pada statistik deskriptif, kita dapat menerima rentang efek yang dapat ditoleransi dan menyimpulkan dengan agak kuat bahwa tren itu mungkin benar: tetapi pengujian statistik tidak mengarahkan kita pada temuan semacam itu. Bahkan dalam inferensi Bayesian, tidak ada data yang akan mengarah ke posterior singular tanpa memiliki beberapa masalah metodologis, jadi penggabungan prior tidak memperbaiki masalah ini.

AdamO
sumber
1
"" Dengan probabilitas sebelumnya 0 bahwa bulan terbuat dari keju "tetapi diberi" cogito ergo sum "(dan mungkin bahkan tidak itu) adalah semua yang kita tahu pasti, haruskah kita memberikan probabilitas 0 sebelumnya bahwa bulan terbuat dari keju 0 dan 1 harus dicadangkan untuk yang secara logika mustahil dan pasti, dan eps dan 1-eps untuk pernyataan tentang dunia nyata.Rangka Bayesian baik-baik saja, asalkan prior Anda secara akurat mewakili pengetahuan awal Anda tentang masalah (tetapi itu sendiri adalah masalah)
Dikran Marsupial
1
@DikranMarsupial Argumen Anda yang menentang penggunaan 0/1 seperti itulah yang disarankan oleh kutipan. Itu mengolok-olok situasi untuk menjelaskan perlunya apa yang Lindley sebut sebagai aturan Cromwell .
nwn
1
@watarok terima kasih atas tautan / klarifikasi, sepertinya menyebutkan dalam jawabannya agak menyesatkan karena Lindley sebenarnya tidak mengkritik studi Bayesian, hanya terlalu percaya diri dulu.
Dikran Marsupial
@DikranMarsupial Saya pikir masalah prior terlalu percaya diri adalah salah satu yang dapat diterapkan ke semua statistik Bayesian. Lagipula, suatu informasi yang tidak informatif sering mengarah pada perkiraan inferensi dan analisis frequentist. Perbedaannya terletak pada interpretasi: hasil Bayesian harus sesuai dengan gagasan "kebenaran" atau "parameter sejati". Itu bagus selama kita dengan hati-hati menggambarkan asumsi, dan bagaimana tingkat daya dan kesalahan diperbaiki.
AdamO
@watarok guru statistik Bayesian Skotlandia saya menggunakan kutipan itu secara teratur, namun tidak pernah menjelaskan relevansinya. Saya bersyukur mengetahui hal itu sekarang.
AdamO
6

Ada dua upaya untuk melakukan persis apa yang Anda katakan dalam sejarah statistik, Bayesian dan Fiducial. RA Fisher mendirikan dua sekolah pemikiran statistik, sekolah Likelihoodist dibangun di sekitar metode kemungkinan maksimum dan Fidusia, yang berakhir dengan kegagalan tetapi yang berusaha untuk melakukan apa yang Anda inginkan.

Jawaban singkat mengapa gagal adalah bahwa distribusi probabilitasnya tidak akhirnya berintegrasi ke persatuan. Pelajarannya, pada akhirnya, adalah bahwa probabilitas sebelumnya adalah hal yang diperlukan untuk menciptakan apa yang ingin Anda ciptakan. Memang, Anda akan segera menuju jalan salah satu ahli statistik terhebat dalam sejarah dan lebih dari beberapa hebat lainnya meninggal dengan harapan untuk menyelesaikan masalah ini. Jika ditemukan itu akan menempatkan metode hipotesis nol setara dengan metode Bayes dalam hal jenis masalah yang bisa mereka pecahkan. Memang, itu akan mendorong melewati Bayes kecuali di mana informasi sebelumnya yang nyata ada.

Anda juga ingin berhati-hati dengan pernyataan Anda bahwa nilai-p menunjukkan kemungkinan alternatif yang lebih tinggi. Itu hanya berlaku di sekolah Fisherian Likelihoodist. Sama sekali tidak benar di sekolah Frequentist Pearson-Neyman. Taruhan Anda di bagian bawah tampaknya merupakan taruhan Pearson-Neyman sementara nilai-p Anda tidak kompatibel karena berasal dari sekolah Fisher.

Untuk menjadi amal saya akan berasumsi, bahwa untuk contoh Anda, bahwa tidak ada bias publikasi dan hanya hasil signifikan yang muncul dalam jurnal yang menciptakan tingkat penemuan palsu yang tinggi. Saya memperlakukan ini sebagai sampel acak dari semua penelitian yang dilakukan, terlepas dari hasilnya. Saya berpendapat bahwa peluang taruhan Anda tidak akan koheren dalam arti kata klasik de Finetti.

Di dunia de Finetti, taruhan adalah koheren jika bandarnya tidak bisa dimainkan oleh pemain sehingga mereka menghadapi kerugian yang pasti. Dalam konstruksi yang paling sederhana, itu seperti solusi untuk masalah memotong kue. Satu orang memotong bagian itu menjadi dua, tetapi orang lain memilih bagian mana yang mereka inginkan. Dalam konstruksi ini satu orang akan menyatakan harga untuk taruhan pada setiap hipotesis, tetapi orang lain akan memilih untuk membeli atau menjual taruhan. Intinya, Anda bisa menjual nol. Agar optimal, peluangnya harus benar-benar adil. Nilai-P dilakukan untuk tidak mengarah pada peluang yang adil.

Untuk mengilustrasikan ini, pertimbangkan penelitian oleh Wetzels, dkk di http://ejwagenmakers.com/2011/WetzelsEtAl2011_855.pdf

Kutipan yang adalah: Ruud Wetzels, Dora Matzke, Michael D. Lee, Jeffrey N. Rounder, Geoffrey J. Iverson dan Eric-Jan Wagenmakers. Bukti Statistik dalam Psikologi Eksperimental: Perbandingan Empiris Menggunakan 855 Uji t. Perspektif tentang Ilmu Psikologis. 6 (3) 291-298. 2011

Ini adalah perbandingan langsung dari 855 uji-t yang diterbitkan menggunakan faktor Bayes untuk mem-bypass masalah distribusi sebelumnya. Dalam 70% dari nilai-p antara 0,05 dan 0,01, faktor Bayes paling baik, anekdotal. Ini disebabkan oleh bentuk matematika yang digunakan oleh Frequentists untuk menyelesaikan masalah.

Metode hipotesis nol mengasumsikan bahwa model itu benar dan dengan konstruksi mereka menggunakan distribusi statistik minimax daripada distribusi probabilitas. Kedua faktor ini memengaruhi perbedaan antara solusi Bayesian dan non-Bayesian. Pertimbangkan sebuah studi di mana metode Bayesian mengevaluasi probabilitas posterior hipotesis sebagai tiga persen. Bayangkan bahwa nilai p kurang dari lima persen. Keduanya benar karena tiga persen kurang dari lima persen. Meskipun demikian, nilai-p bukan probabilitas. Ini hanya menyatakan nilai maksimum yang bisa menjadi probabilitas melihat data, bukan probabilitas aktual suatu hipotesis benar atau salah. Memang, dalam konstruksi nilai-p, Anda tidak dapat membedakan antara efek karena kebetulan dengan nol benar dan nol palsu dengan data yang baik.

Jika Anda melihat studi Wetzel, Anda akan mencatat bahwa sangat jelas bahwa peluang yang tersirat oleh nilai-p tidak cocok dengan peluang yang tersirat oleh ukuran Bayesian. Karena ukuran Bayesian dapat diterima dan koheren, dan non-Bayesian tidak koheren, tidak aman untuk mengasumsikan peta nilai-p dengan probabilitas sebenarnya. Asumsi paksa bahwa nol itu valid memberikan probabilitas jangkauan yang bagus, tetapi tidak menghasilkan probabilitas perjudian yang bagus.

Untuk memahami mengapa, pertimbangkan aksioma pertama Cox bahwa masuk akal suatu hipotesis dapat dideskripsikan dengan bilangan real. Secara implisit, ini berarti bahwa semua hipotesis memiliki bilangan real yang terkait dengan kemungkinannya. Dalam metode hipotesis nol, hanya nol yang memiliki bilangan real yang dikaitkan dengan kemungkinannya. Hipotesis alternatif tidak memiliki pengukuran yang dilakukan dan tentu saja tidak melengkapi probabilitas untuk mengamati data mengingat bahwa nol itu benar. Memang, jika nol itu benar, maka komplemen itu salah dengan asumsi tanpa memperhatikan data.

Jika Anda membangun probabilitas menggunakan nilai-p sebagai dasar pengukuran Anda, maka Bayesian menggunakan pengukuran Bayesian akan selalu mampu mendapatkan keuntungan atas Anda. Jika Bayesian mengatur peluang maka teori keputusan Pearson dan Neyman akan memberikan pernyataan bertaruh atau tidak bertaruh, tetapi mereka tidak akan dapat menentukan jumlah yang akan dipertaruhkan. Karena peluang Bayesian adil, keuntungan yang diharapkan dari menggunakan metode Pearson dan Neyman adalah nol.

Memang, studi Wetzel benar-benar apa yang Anda bicarakan, tetapi dengan 145 taruhan lebih sedikit. Jika Anda melihat tabel tiga, Anda akan melihat beberapa studi di mana Frequentist menolak nol, tetapi Bayesian menemukan bahwa probabilitas lebih menyukai nol.

Dave Harris
sumber
5

Analisis frequentist tidak dapat memberi Anda probabilitas bahwa hipotesis tertentu adalah benar (atau salah) karena tidak memiliki frekuensi jangka panjang (itu benar atau tidak) sehingga kami tidak dapat menetapkan probabilitas untuk itu (kecuali mungkin 0 atau 1 ). Jika Anda ingin mengetahui probabilitas bahwa suatu hipotesis tertentu benar, kita perlu mengadopsi kerangka kerja Bayesian (di mana itu langsung, kita hanya perlu mempertimbangkan probabilitas sebelumnya, dll.).

Frequentists dapat menemukan strategi yang optimal untuk bertindak pada tes hipotesis nol ( kerangka Neyman-Pearson ) tetapi mereka tidak dapat menerjemahkannya menjadi probabilitas bahwa hipotesis itu benar, tetapi hanya karena definisi mereka tentang probabilitas.

Dikran Marsupial
sumber
Bisakah Anda lebih tepat pada '' tidak dapat menerjemahkannya menjadi probabilitas bahwa hipotesis itu benar, tetapi hanya karena definisi mereka tentang probabilitas '' karena saya tidak mengerti mengapa itu terjadi?
Frequentists mendefinisikan probabilitas dalam hal frekuensi jangka panjang, dan kebenaran hipotesis tertentu tidak memiliki frekuensi jangka panjang (non-sepele), sehingga frequentist tidak dapat melampirkan probabilitas untuk itu. en.wikipedia.org/wiki/Frequentist_probability Inilah sebabnya kami mengatakan hal-hal yang agak samar seperti "kami dapat menolak hipotesis nol pada tingkat signifikansi X" daripada "probabilitas H0 salah adalah p" (yang merupakan bentuk jawaban yang biasanya kita inginkan).
Dikran Marsupial
1
p(H0=true)p(H0=true|D)p(D|H0=true)H0
lihat jawaban saya di utas ini, juga untuk @matus.
@DikranMarsupial tidak akan Bayesian hanya menerima sesuatu sebagai "kebenaran" jika probabilitas untuk hasil tertentu adalah 1 dan untuk semua kemungkinan lain adalah 0? Bisakah Anda mendapatkan ini dalam analisis Bayesian? Anda akan membutuhkan kemungkinan yang mendominasi sebelumnya, tetapi kemudian yang sering mengakui dan sering Bayesian harus mengakui: data telah memberitahu kami segalanya.
AdamO
1

Setelah Anda membuat taruhan untuk semua 1000 studi, oracle naik ke atas Anda dan memberi tahu Anda hipotesis mana yang benar. Informasi ini memungkinkan Anda untuk menyelesaikan taruhan. Klaim saya adalah bahwa ada strategi optimal untuk game ini.

Masalah dalam pengaturan Anda adalah Oracle. Biasanya tidak datang untuk menyelesaikan taruhan. Katakanlah, Anda bertaruh bahwa kemungkinan benar merokok menyebabkan kanker adalah 97%. Kapan Oracle ini datang untuk menyelesaikan taruhan? Tidak pernah. Lalu bagaimana Anda membuktikan bahwa strategi optimal Anda optimal?

Namun, jika Anda menghapus Oracle, dan memperkenalkan agen lain seperti pesaing dan pelanggan, maka akan ada strategi yang optimal. Saya khawatir ini tidak akan didasarkan pada nilai-p. Itu akan lebih mirip dengan pendekatan Gosset dengan fungsi kehilangan. Misalnya, Anda dan pesaing Anda di sektor pertanian bertaruh bahwa ramalan cuaca itu benar. Siapa pun yang memilih strategi yang lebih baik akan menghasilkan lebih banyak uang. Tidak perlu di Oracle, dan taruhan diselesaikan di pasar. Anda tidak dapat mendasarkan strategi pada nilai-p di sini, Anda harus memperhitungkan kerugian dan keuntungan dalam dolar.

Aksakal
sumber
Mengapa kita tidak bisa berasumsi bahwa Oracle akan segera menyelesaikan taruhan?
Atte Juvonen
Mengapa kita tidak bisa berasumsi bahwa begitu kita memperkirakan sampel berarti Oracle datang dan memberi tahu kita apa artinya populasi? Itu adalah hal yang sama, jika Anda memikirkannya. Itu tidak realistis.
Aksakal
0

H0:μL=1.75H1:μL1.75

H0P(H0=TRUE)

H0

Untuk utas tentang nilai-p lihat lihat Kesalahpahaman nilai-P?

H0H0

H0:H1:

H0H0

H0H0H1

H0H0H1H0

H0H1

Mereka hanya mengekspresikan keyakinan mereka pada '' kesimpulan dari tes '' yang berasal dari '' data yang tersedia ''.


sumber