Implikasi dari perdebatan saat ini pada signifikansi statistik

10

Dalam beberapa tahun terakhir, berbagai cendekiawan telah mengangkat masalah pengujian hipotesis ilmiah yang merugikan, dijuluki "derajat kebebasan peneliti," yang berarti bahwa para ilmuwan memiliki banyak pilihan untuk membuat selama analisis mereka yang bias terhadap penemuan dengan nilai p <5%. Pilihan ambigu ini, misalnya, kasus mana yang akan dimasukkan, kasus mana yang dikategorikan sebagai pencilan, menjalankan banyak spesifikasi model hingga sesuatu muncul, jangan mempublikasikan hasil nol, dll. (Makalah yang memicu debat psikologi ini ada di sini , lihat artikel Slate yang populer dan debat lanjutan oleh Andrew Gelman di sini , dan majalah Time juga menyentuh topik ini di sini .)

Pertama , satu pertanyaan klarifikasi:

The Waktu majalah menulis,

"Kekuatan 0,8 berarti bahwa dari sepuluh hipotesis sejati yang diuji, hanya dua yang akan dikesampingkan karena efeknya tidak diambil dalam data;"

Saya tidak yakin bagaimana ini cocok dengan definisi fungsi daya yang saya temukan di buku teks, yang merupakan probabilitas menolak nol sebagai fungsi dari parameter θ . Dengan berbeda, θkami memiliki kekuatan yang berbeda, jadi saya tidak mengerti kutipan di atas.

Kedua , beberapa implikasi penelitian:

  1. Di bidang ilmu / ekonomi politik saya, para sarjana hanya menggunakan semua data negara-tahun yang tersedia. Jadi, haruskah kita tidak khawatir dengan sampel biola di sini?

  2. Dapatkah masalah menjalankan beberapa tes tetapi melaporkan hanya satu model diperbaiki hanya dengan fakta bahwa orang lain dalam disiplin akan menguji ulang kertas Anda dan segera menjatuhkan Anda karena tidak memiliki hasil yang kuat? Mengantisipasi hal ini, para sarjana di bidang saya lebih cenderung memasukkan robustness checkbagian, di mana mereka menunjukkan bahwa beberapa spesifikasi model tidak mengubah hasilnya. Apakah ini cukup?

  3. Andrew Gelman dan yang lainnya mengangkat poin bahwa tidak masalah data, akan selalu mungkin untuk menemukan dan menerbitkan beberapa "pola" yang tidak benar-benar ada. Tetapi ini seharusnya tidak menjadi perhatian, mengingat fakta bahwa "pola" empiris apa pun harus didukung oleh sebuah teori, dan teori-teori saingan dalam suatu disiplin hanya akan terlibat dalam debat / ras untuk menemukan kubu mana yang mampu menemukan lebih banyak "pola" di berbagai tempat. Jika suatu pola benar-benar palsu, maka teori di baliknya akan dengan cepat dihancurkan ketika tidak ada pola yang serupa dalam sampel / pengaturan lain. Bukankah ini bagaimana ilmu pengetahuan berkembang?

  4. Dengan asumsi bahwa tren jurnal saat ini untuk hasil nol benar-benar akan berkembang, apakah ada cara bagi kita untuk mengumpulkan semua hasil nol dan positif bersama-sama dan membuat kesimpulan pada teori bahwa mereka semua mencoba menguji?

Heisenberg
sumber
Lihat juga "Teori-Pengujian dalam Psikologi dan Fisika: Paradoks Metodologis" . "Hipotesis nol" selalu salah untuk bidang Anda. Bahkan dengan praktik penelitian yang baik, uji signifikansi dan uji hipotesis mungkin tidak sesuai.
Labu
Pertanyaan Anda 1 bertentangan dengan pertanyaan 3. Dalam polsci / ekonomi, apakah ada sampel / pengaturan lain yang tersedia atau tidak?
Labu

Jawaban:

11

Alih-alih menggunakan nilai-p untuk menilai klaim, kita harus mengikuti saran Robert Abelson dan menggunakan kriteria MAGIC:

Magnitude
Articulation
Generality
Interestingness
Credibility

Untuk lebih lanjut tentang Abelson lihat review saya tentang bukunya

Dan kita harus berkonsentrasi pada ukuran efek, bukan nilai p dalam output statistik (dengan kemungkinan pengecualian dari beberapa jenis data mining, di mana saya tidak ahli sama sekali). Dan ukuran efek harus dinilai dalam konteks:

1 in 1000 pairs of pants gets the wrong size label - not a big deal
1 in 1000 airplanes are defective in a way that leads to crashes - a big deal
1 in 1000 nuclear reactors is defective in a way that leads to meltdown - uh oh

Seorang analis statistik / data tidak boleh orang yang aneh, digunakan seperti kotak hitam di mana data dimasukkan dan keluar dari mana nilai p diperoleh; dia harus menjadi kolaborator dalam penelitian yang dirancang untuk membuat argumen yang masuk akal tentang makna beberapa set data dalam konteks beberapa bidang, mengingat teori saat ini (atau kekurangannya) dan bukti saat ini (atau kurang sama).

Sayangnya, pendekatan ini memerlukan pemikiran dari para peneliti substantif, analis data dan siapa pun yang meninjau hasilnya (baik itu bos berambut runcing, komite disertasi, editor jurnal atau siapa pun). Anehnya, bahkan para akademisi tampaknya menolak pemikiran semacam ini.

Untuk lebih lanjut tentang pandangan saya, berikut adalah artikel yang saya tulis yang dipublikasikan di Sciences360.

Peter Flom - Pasang kembali Monica
sumber
4
+1 Meskipun saya sangat setuju dengan Anda, saya dapat membayangkan bahwa mengatakan 'klaim saya didukung oleh MAGIC' mungkin tidak selalu membantu :-)
Marc Claesen
1
Ya, Anda harus mengejanya, tetapi, jika Anda melakukannya, saya pikir itu mungkin berhasil: "Ini adalah efek besar yang memiliki beberapa pengecualian, memengaruhi banyak orang, menarik karena XXXX dan dapat dipercaya karena mereka XXXX" mungkin bekerja. Saya belum melihatnya mencoba. :-)
Peter Flom - Reinstate Monica
1
Iya; klaim "kredibel" jika ada teori yang mengatakan bagaimana itu bisa terjadi; jika direplikasi, dan sebagainya. Itu kurang kredibel jika tidak ada penjelasan fisik atau teoretis lainnya. Klaim yang kurang kredibel semakin banyak bukti yang dibutuhkan untuk itu.
Peter Flom - Pasang kembali Monica
2
@Anh Kredibilitas dalam sains harus diukur dengan seberapa baik teori memprediksi fenomena yang tidak digunakan dalam mengembangkan teori. Ketika menilai apakah prediksi itu prediksi yang baik, kredibilitas memerlukan replikasi oleh peneliti independen. Ada banyak bukti empiris bahwa pengujian signifikansi dan pengujian hipotesis keduanya tampaknya benar-benar menghambat kedua perilaku, alih-alih mendorong kegiatan kontra produktif dari bias publikasi dan "p-hacking" dari pemotongan "signifikansi" sewenang-wenang.
Labu
1
@ Flek - Saya akan mengatakan nilai-p belum tentu masalah, lebih dari itu menggunakan tes hipotesis lemah adalah masalahnya. Fisika juga menggunakan nilai-p tetapi dengan hipotesis yang mengarah pada prediksi titik (yaitu hipotesis nol aktual). Menemukan "efek positif" pada dasarnya tidak berguna untuk membangun teori - Anda perlu membuat estimasi poin untuk mengkonfirmasi teori dengan benar.
probabilityislogic
3

Bidang ilmu statistik telah menangani masalah ini sejak awal. Saya terus mengatakan peran ahli statistik adalah untuk memastikan bahwa tingkat kesalahan tipe 1 tetap tetap. Ini menyiratkan bahwa risiko membuat kesimpulan positif palsu tidak dapat dihilangkan, tetapi dapat dikendalikan. Ini harus menarik perhatian kita pada volume yang sangat besar dari penelitian ilmiah yang dilakukan daripada menuju filosofi dan etika praktik statistik umum. Untuk setiap hasil (luar biasa) luar biasa yang muncul di media (atau dalam kebijakan pemerintah) setidaknya 19 hasil tak terduga lainnya ditembak jatuh untuk temuan nol mereka.

Memang, jika Anda pergi ke, katakanlah, clinicaltrials.gov, Anda akan mengamati ada (untuk hampir semua indikasi penyakit) lebih dari 1.000 uji klinis untuk agen farmasi yang sedang berlangsung di AS saat ini. Itu berarti, bahwa dengan tingkat kesalahan positif palsu 0,001, rata-rata setidaknya 1 obat akan diletakkan di rak yang tidak memiliki efek. Validitas 0,05 sebagai ambang batas yang divalidasi untuk signifikansi statistik telah ditantang berulang kali. Ironisnya, hanya para ahli statistik yang merasa tidak nyaman dengan menggunakan tingkat kesalahan positif palsu 1/20 sedangkan para pemangku kepentingan keuangan (baik mereka PI, atau Merck) akan mengejar kepercayaan dengan kuat terlepas dari hasil in-vitro, bukti teoretis, atau kekuatan bukti sebelumnya. Secara jujur, bahwa kegigihan adalah kualitas pribadi yang sukses dan terpuji dari banyak individu yang berhasil dalam peran non-statistik. Mereka umumnya duduk di atas ahli statistik, dalam totem masing-masing, yang cenderung memanfaatkan keuletan itu.

Saya pikir kutipan waktu yang Anda ajukan benar-benar salah. Kekuatan adalah probabilitas untuk menolak hipotesis nol mengingat itu salah. Ini lebih penting tergantung pada seberapa tepatnya "salah" hipotesis nol itu (yang pada gilirannya tergantung pada ukuran efek yang dapat diukur). Saya jarang berbicara tentang kekuatan di luar konteks efek yang kita anggap "menarik" untuk dideteksi. (misalnya, kelangsungan hidup 4 bulan setelah pengobatan kemoterapi kanker pankreas stadium 4 tidak menarik, maka tidak ada alasan untuk merekrut 5.000 orang untuk uji coba fase 3).

Untuk menjawab pertanyaan yang Anda ajukan

  1. ???

  2. Multiplisitas sulit karena tidak mengarah pada aturan keputusan yang jelas tentang bagaimana menangani data. Sebagai contoh, misalkan kita tertarik pada tes sederhana dari perbedaan rata-rata. Terlepas dari protes tak terbatas dari kolega saya, mudah untuk menunjukkan uji-t yang dikalibrasi dengan baik untuk mendeteksi perbedaan rata-rata terlepas dari distribusi sampel data. Misalkan kita secara berurutan mengejar jalan mereka. Mereka akan mulai dengan menguji normalitas menggunakan beberapa varian dari tes distribusi terkenal (katakanlah kalibrasi qqplot). Jika data muncul cukup tidak normal, mereka kemudian akan bertanya apakah data mengikuti transformasi yang diketahui, dan kemudian menerapkan transformasi Box Cox untuk menentukan transformasi daya (mungkin logaritmik) yang memaksimalkan entropi. Jika nilai numerik yang jelas muncul, mereka akan menggunakan transformasi itu. Jika tidak, mereka akan menggunakan tes Wilcoxon "bebas distribusi". Untuk urutan peristiwa khusus ini, saya tidak bisa mulai berharap bagaimana menghitung kalibrasi dan kekuatan untuk uji sederhana perbedaan rata-rata ketika uji-t sederhana dan bodoh sudah mencukupi. Saya menduga tindakan bodoh seperti ini dapat dikaitkan secara matematis dengan estimasi supereisien Hodge: estimator yang berkekuatan tinggi di bawah hipotesis tertentu yang kami inginkan benar. Meskipun demikian, proses ini adalah Estimasi supereisien: estimator yang berkekuatan tinggi di bawah hipotesis tertentu yang kita inginkan benar. Meskipun demikian, proses ini adalah Estimasi supereisien: estimator yang berkekuatan tinggi di bawah hipotesis tertentu yang kita inginkan benar. Meskipun demikian, proses ini adalahbukan statistik karena tingkat kesalahan positif palsu belum dikontrol.

  3. Konsep bahwa tren dapat "ditemukan" secara keliru dalam set data acak apa pun mungkin ditelusuri kembali ke artikel yang ditulis dengan baik oleh Martin yang disebut "Grid Statistik Munchaesen" . Ini adalah bacaan yang sangat mencerahkan dan berasal dari tahun 1984 sebelum anak lembu emas pembelajaran mesin lahir bagi kita seperti yang kita ketahui sekarang. Memang, hipotesis yang dinyatakan dengan benar dapat dipalsukan, tetapi kesalahan tipe 1 telah berkembang menjadi jauh lebih mahal dalam masyarakat yang didorong oleh data kami daripada sebelumnya. Pertimbangkan, misalnya, bukti palsu dari penelitian anti-vaksin yang telah menyebabkan serangkaian besar kematian pertusis. Hasil yang menolak defenestrasi publik vaksin dikaitkan dengan satu studi(yang, meskipun salah, tidak dikonfirmasi oleh penelitian eksternal). Ada dorongan etis untuk melakukan hasil dan melaporkan kekuatan bukti yang jujur. Seberapa kuat bukti? Ini tidak ada hubungannya dengan nilai-p yang Anda peroleh, tetapi nilai-p yang Anda katakan akan signifikan. Dan ingat, memalsukan data Anda mengubah nilai p, bahkan ketika tes konfirmasi akhir melaporkan sesuatu yang berbeda (seringkali jauh lebih kecil).

  4. IYA! Anda dapat dengan jelas melihat dalam meta-analisis yang diterbitkan oleh jurnal seperti laporan Cochrane bahwa distribusi hasil tes terlihat lebih bimodal daripada noraml, dengan hanya hasil positif dan negatif yang menjadikannya sebagai jurnal. Bukti ini benar-benar gila dan membingungkan bagi siapa pun dalam praktik klinis. Sebaliknya, jika kami mempublikasikan hasil nol (yang berasal dari penelitian yang hasilnya menarik bagi kami, terlepas dari apa hasilnya ), maka kami dapat mengharapkan meta-analisis untuk benar-benar mewakili bukti yang bermakna dan representatif.

AdamO
sumber
1
Dalam " Kemungkinan sebagai dasar untuk tindakan," William Deming membuat perbedaan antara studi "enumeratif" dan "analitik". Dia menyatakan bahwa hasil dari setiap percobaan tergantung pada lingkungan yang tepat dari percobaan, oleh karena itu para ahli statistik berusaha untuk mengontrol "tingkat kesalahan tipe I" akan selalu mati dengan jumlah yang tidak diketahui ketika perawatan diterapkan dalam kondisi yang berbeda .
Labu
@Flask Demikian pula tidak ada prosedur mekanis pada stasiun ruang angkasa internasional yang dikalibrasi dengan sempurna, tetapi perhatian para insinyur terhadap detail dan meminimalkan kesalahan memastikan bahwa kami tidak menemukan Keanehan Ruang di tangan kami.
AdamO
Para insinyur (semoga) menguji komponen-komponen dalam semua kondisi yang diharapkan dan kemudian menambahkan margin kesalahan tambahan berdasarkan model yang mereka hasilkan. Ini adalah jenis perilaku yang dianjurkan oleh Deming dan berbeda dari mencoba untuk menarik kesimpulan tentang kinerja pengobatan di masa depan atau hubungan antara faktor-faktor dari menilai kesalahan pengambilan sampel hanya satu studi. Ini adalah perbedaan yang sangat menarik yang belum saya lihat disebutkan di tempat lain.
Labu
Saya sama sekali tidak berpendapat bahwa mengatakan "proses tidak statistik karena tingkat kesalahan positif palsu belum dikontrol." Ada jauh lebih banyak statistik daripada frekuensi dengan kontrol tingkat kesalahan, dan bit non-sering adalah bit yang lebih berguna untuk ilmu pengetahuan. Anda mungkin ingin membaca makalah yang baru-baru ini saya bahas dengan topik: arxiv.org/abs/1311.0081
Michael Lew
1
@Adamo Tidak adanya kuantisasi bukti dalam inferensi frequentist memang pendapat populer di antara Bayesian (dan likelihoodians), tetapi itu divalidasi dengan baik dan merupakan pendapat yang diungkapkan secara eksplisit tentang Neyman dan Pearson di koran pertama di mana mereka merancang metode frequentist! Mungkin Anda harus membaca makalah saya dengan pikiran terbuka. Semua informasinya ada di sana.
Michael Lew
3

Pertama, saya bukan seorang ahli statistik, hanya seorang peneliti yang telah melihat ke dalamnya banyak beberapa tahun terakhir untuk mencari tahu mengapa metode yang saya amati digunakan di sekitar saya sangat kurang dan mengapa ada begitu banyak kebingungan tentang konsep dasar seperti "apa adalah nilai p? " Saya akan memberikan perspektif saya.

Pertama, satu pertanyaan klarifikasi:

Majalah Time menulis,

"A power of 0.8 means that of ten true hypotheses tested, only two will be ruled out > because their effects are not picked up in the

data;"

Saya tidak yakin bagaimana ini cocok dengan definisi fungsi daya yang saya temukan di buku teks, yang merupakan probabilitas menolak nol sebagai fungsi dari parameter θ. Dengan θ yang berbeda, kami memiliki kekuatan yang berbeda, jadi saya tidak mengerti kutipan di atas.

Kekuatan adalah fungsi θ, varians, dan ukuran sampel. Saya tidak yakin apa kebingungannya. Juga untuk banyak kasus di mana pengujian signifikansi digunakan hipotesis nol mean1 = mean2 selalu salah. Dalam kasus ini signifikansi hanya fungsi ukuran sampel. Tolong baca "Teori-Pengujian dalam Psikologi dan Fisika: Sebuah Paradoks Metodologis" karya Paul Meehl " ini mengklarifikasi banyak hal bagi saya dan saya belum pernah melihat respons yang memadai. Paul Meehl memiliki beberapa makalah lain tentang ini yang dapat Anda temukan dengan mencari namanya.

Di bidang ilmu / ekonomi politik saya, para sarjana hanya menggunakan semua data negara-tahun yang tersedia. Jadi, haruskah kita tidak khawatir dengan sampel biola di sini?

Jika Anda membaca makalah Simmons 2011, ini hanya salah satu dari teknik "peretasan" yang disebutkan. Jika benar bahwa hanya ada satu set data dan tidak ada yang mengambil sampel selektif dari itu maka saya kira tidak ada ruang untuk meningkatkan ukuran sampel.

Bisakah masalah menjalankan beberapa tes tetapi melaporkan hanya satu model diperbaiki hanya dengan fakta bahwa orang lain dalam disiplin akan menguji ulang kertas Anda dan segera menjatuhkan Anda karena tidak memiliki hasil yang kuat? Mengantisipasi ini, para sarjana di bidang saya lebih cenderung untuk memasukkan bagian pemeriksaan ketahanan, di mana mereka menunjukkan bahwa beberapa spesifikasi model tidak mengubah hasilnya. Apakah ini cukup?

Jika replikasi terjadi tanpa bias publikasi maka tidak perlu untuk "jurnal hasil nol". Saya akan mengatakan bagian pemeriksaan ketahanan baik untuk dimiliki tetapi tidak cukup di hadapan peneliti gagal untuk mempublikasikan apa yang mereka anggap hasil nol. Juga saya tidak akan menganggap hasil yang kuat hanya karena beberapa teknik analisis pada data yang sama sampai pada kesimpulan yang sama. Hasil yang kuat adalah hasil yang membuat prediksi efek / korelasi / dll yang benar pada data baru .

Replikasi tidak mendapatkan p <0,05 kedua kali. Teori harus dianggap lebih kuat jika diprediksi memiliki efek / korelasi / dll yang berbeda daripada yang digunakan dalam penelitian pertama. Saya tidak merujuk pada adanya efek atau korelasi, tetapi nilai yang tepat atau rentang nilai yang kecil dibandingkan dengan rentang nilai yang mungkin. Kehadiran peningkatan / penurunan efek atau korelasi positif / negatif adalah 100% kemungkinan benar dalam kasus hipotesis nol menjadi salah. Baca Meehl.

Andrew Gelman dan yang lainnya mengangkat poin bahwa tidak masalah data, akan selalu mungkin untuk menemukan dan menerbitkan beberapa "pola" yang tidak benar-benar ada. Tetapi ini seharusnya tidak menjadi perhatian, mengingat fakta bahwa "pola" empiris apa pun harus didukung oleh sebuah teori, dan teori-teori saingan dalam suatu disiplin hanya akan terlibat dalam debat / ras untuk menemukan kubu mana yang mampu menemukan lebih banyak "pola" di berbagai tempat. Jika suatu pola benar-benar palsu, maka teori di baliknya akan dengan cepat dihancurkan ketika tidak ada pola yang serupa dalam sampel / pengaturan lain. Bukankah ini bagaimana ilmu pengetahuan berkembang?

Sains tidak dapat berfungsi dengan baik jika peneliti gagal mempublikasikan hasil nol. Juga hanya karena pola itu tidak ditemukan dalam sampel / pengaturan kedua tidak berarti itu tidak ada di bawah kondisi penelitian awal.

Dengan asumsi bahwa tren jurnal saat ini untuk hasil nol benar-benar akan berkembang, apakah ada cara bagi kita untuk mengumpulkan semua hasil nol dan positif bersama-sama dan membuat kesimpulan pada teori bahwa mereka semua mencoba menguji?

Ini akan menjadi meta-analisis . Tidak ada yang istimewa tentang hasil nol dalam kasus ini selain bahwa peneliti tidak mempublikasikannya karena nilai p berada di atas ambang batas arbitrer. Di hadapan bias publikasi meta-analisis tidak dapat diandalkan seperti halnya seluruh literatur yang menderita bias publikasi. Meskipun bisa bermanfaat, analisis meta jauh lebih rendah untuk menilai suatu teori daripada membuat teori itu membuat prediksi yang tepat yang kemudian diuji. Bias publikasi hampir tidak penting selama prediksi baru berjalan dan direplikasi oleh kelompok independen.

Labu
sumber
Kebingungan saya tentang kutipan Waktu adalah bahwa fungsi daya tidak boleh dibatasi ketika nol benar seperti kutipan menyiratkan. Domain fungsi daya adalah seluruh ruang parameter jika saya tidak salah. Dan karenanya, tidak ada "kekuatan 0,8" tertentu yang dapat ditetapkan untuk suatu tes.
Heisenberg
Saya setuju sepenuhnya dengan Anda pada poin bahwa teori perlu diuji pada data baru. Tetapi dalam kasus ilmu politik atau ekonomi makro, di mana kita hanya memiliki begitu banyak negara dan bertahun-tahun, apakah upaya itu harus digagalkan?
Heisenberg
@ Anh setiap detik ada data baru untuk ditambahkan. Teorinya harus memprediksi masa depan. Dalam astronomi ada yang memprediksi posisi komet misalnya. Anda juga menghitung daya untuk nilai parameter yang diharapkan. Jadi dalam hal kutipan, mereka akan merujuk pada kekuatan untuk menguji teori yang memprediksi korelasi setidaknya r = 0,5.
Labu
Untuk memperjelas r = 0,5 akan menjadi contoh korelasi yang diprediksi oleh suatu teori.
Labu
2

Saya akan mengatakannya sebagai pengujian hipotesis nol benar-benar hanya tentang hipotesis nol. Dan umumnya, hipotesis nol biasanya bukan yang menarik, dan bahkan mungkin bukan "status quo" - terutama dalam jenis regresi pengujian hipotesis. Seringkali dalam ilmu sosial tidak ada status quo, sehingga hipotesis nol bisa sangat sewenang-wenang. Ini membuat perbedaan besar pada analisis, karena titik awalnya tidak ditentukan, sehingga penelitian yang berbeda dimulai dengan hipotesis nol yang berbeda, kemungkinan besar didasarkan pada data apa pun yang mereka miliki. Bandingkan ini dengan sesuatu seperti hukum gerak Newton - masuk akal untuk menganggap ini sebagai hipotesis nol, dan mencoba menemukan teori yang lebih baik dari titik awal ini.

Selain itu, nilai-p tidak menghitung probabilitas yang benar - kami tidak ingin tahu tentang probabilitas ekor, kecuali hipotesis alternatif lebih mungkin ketika Anda bergerak lebih jauh ke dalam ekor. Yang benar-benar Anda inginkan adalah seberapa baik teori tersebut memprediksi apa yang sebenarnya dilihat. Sebagai contoh, misalkan saya memperkirakan bahwa ada kemungkinan 50% "hujan ringan", dan pesaing saya memperkirakan bahwa ada peluang 75%. Ini ternyata benar, dan kami mengamati mandi ringan. Sekarang ketika memutuskan orang cuaca mana yang benar, Anda tidak boleh memberikan prediksi saya kredit tambahan karena juga memberi peluang 40% "badai petir", atau mengambil kredit dari pesaing saya karena memberi "badai petir" peluang 0%.

IDH

BF=P(D|HI)P(D|H¯I)

HBF=H0.001

Ada contoh empiris yang terkenal dan mudah disalahpahami tentang hal ini di mana koin dilemparkan kali dan jumlah kepala adalah 52 ,104,490,00052,263,471yBin(n,0.5)y|θBin(n,θ)θU(0,1)yBetaBin(n,1,1)DU(0,,n)p=0.00015

BF=(ny)2n1n+1=(n+1)!2ny!(ny)!=11.90

1n+1=0.00000000960.00000011

Ini terutama benar untuk contoh yang dikritik Gelman - hanya ada satu hipotesis yang diuji, dan tidak banyak pemikiran yang masuk ke a) apa penjelasan alternatif itu (terutama pada perancu dan efek yang tidak dikendalikan), b) berapa banyak alternatif yang didukung oleh penelitian sebelumnya, dan yang paling penting, c) prediksi apa yang mereka buat (jika ada) yang secara substansial berbeda dari nol?

H¯H1,,HKHk0.010.1

Poin utama untuk menekankan adalah bahwa suatu hipotesis tidak akan pernah bisa ada dalam isolasi terhadap alterantives. Karena, setelah menentukan teori / model , Anda selalu dapat menambahkan hipotesis baru H K + 1 = Sesuatu yang lain belum dipikirkanK

HK+1=Something else not yet thought of
HK+1H1,,HKH0HAH1,,HK
probabilityislogic
sumber