Katakanlah kita berulang kali melemparkan koin yang adil, dan kita tahu jumlah kepala dan ekor harus kira-kira sama. Ketika kami melihat hasil seperti 10 kepala dan 10 ekor untuk total 20 kali lemparan, kami percaya hasilnya dan cenderung percaya bahwa koin itu adil.
Nah ketika Anda melihat hasil seperti 10.000 kepala dan 10.000 ekor untuk total 20.000 lemparan, saya benar-benar akan mempertanyakan validitas hasilnya (apakah pelaku eksperimen memalsukan data), karena saya tahu ini lebih tidak mungkin daripada, katakanlah hasil dari 10093 ekor dan 9907 ekor.
Apa argumen statistik di balik intuisi saya?
sumber
Saya suka penjelasan Srikant, dan saya pikir ide Bayesian mungkin adalah cara terbaik untuk mendekati masalah seperti ini. Tapi di sini ada cara lain untuk melihatnya tanpa Bayes: (dalam R)
yaitu sekitar 31.2 di sistem saya. Dengan kata lain, itu lebih dari 30 kali lebih mungkin untuk melihat 10 dari 20 daripada melihat 10.000 dari 20.000, bahkan dengan koin yang adil dalam kedua kasus. Rasio ini meningkat tanpa batas ketika ukuran sampel meningkat.
Ini adalah semacam pendekatan rasio kemungkinan, tetapi sekali lagi, dalam perut saya ini terasa seperti panggilan Bayesian lebih dari apa pun.
sumber
Sebuah subyektivis Bayesian argumen praktis satu-satunya cara (dari sudut pandang statistik) Anda bisa pergi tentang pemahaman Anda intuisi , yang - berbicara dengan benar - subjek psikologis investigasi, tidak satu statistik. Namun, jelas tidak adil - dan karenanya tidak valid - untuk menggunakan pendekatan Bayesian untuk menyatakan bahwa penyelidik memalsukan data. Logikanya melingkar sempurna: ia mengatakan, "berdasarkan kepercayaan saya sebelumnya tentang hasilnya, saya menemukan hasil Anda luar biasa, dan karena itu Anda pasti curang." Argumen yang mementingkan diri sendiri yang tidak logis semacam itu jelas tidak akan muncul di ruang sidang atau dalam proses peer review.
Sebagai gantinya, kita dapat mengambil tip dari kritik Ronald Fisher terhadap eksperimen Mendel dan melakukan tes hipotesis formal. Tentu saja tidak valid untuk menguji hipotesis post hoc berdasarkan hasilnya. Tetapi percobaan harus direplikasi agar dapat dipercaya: itulah prinsip metode ilmiah. Jadi, setelah melihat satu hasil yang kami pikir telah dipalsukan, kami dapat merumuskan hipotesis yang sesuai untuk menguji hasil di masa depan (atau tambahan). Dalam hal ini wilayah kritis akan terdiri dari serangkaian hasil yang sangat dekat dengan harapan. Misalnya, tes diα = Tingkat 5% akan melihat hasil antara 9.996 dan 10.004 sebagai tersangka, karena (a) koleksi ini dekat dengan hasil "palsu" kami yang dihipotesiskan dan (b) di bawah hipotesis nol yaitu tidak berpura-pura (tidak bersalah sampai terbukti bersalah di pengadilan!) , hasil dalam kisaran ini hanya memiliki peluang 5% (sebenarnya 5,07426%) terjadi. Selain itu, kita dapat menempatkan pendekatan yang tampaknya ad hoc ini dalam konteks chi-square (a Fisher) hanya dengan mengkuadratkan deviasi antara proporsi yang diamati dan proporsi yang diharapkan, kemudian menggunakan lemma Neyman-Pearson dalam uji satu sisi di ekor rendah dan menerapkan pendekatan Normal ke distribusi Binomial .
Meskipun pengujian semacam itu tidak dapat membuktikan pemalsuan, itu dapat diterapkan pada laporan di masa depan dari eksperimen untuk menilai kredibilitas klaim mereka, tanpa membuat asumsi yang tidak diinginkan dan tidak didukung berdasarkan pada intuisi Anda sendiri. Ini jauh lebih adil dan teliti daripada mengajukan argumen Bayesian untuk melibatkan seseorang yang mungkin benar-benar tidak bersalah dan kebetulan sangat sial sehingga mereka mendapatkan hasil eksperimen yang indah!
sumber
Saya pikir intuisi Anda cacat. Tampaknya Anda secara implisit membandingkan hasil tunggal, "sangat istimewa" (tepatnya 10.000 kepala) dengan sekumpulan banyak hasil (semua jumlah "tidak khusus" kepala mendekati 10.000). Namun, definisi "khusus" adalah pilihan sewenang-wenang berdasarkan psikologi kita. Bagaimana dengan binary 10000000000000 (desimal 8192) atau Hex ABC (desimal 2748) - apakah itu juga mencurigakan? Seperti yang dikomentari Joris Meys, argumen Bayes pada dasarnya akan sama untuk sejumlah kepala, yang menyiratkan bahwa setiap hasil akan mencurigakan.
Untuk sedikit memperluas argumen: Anda ingin menguji hipotesis ("pelaku percobaan berpura-pura"), dan kemudian Anda memilih statistik uji (jumlah kepala). Sekarang, apakah statistik uji ini cocok untuk memberi tahu Anda tentang hipotesis Anda? Bagi saya, tampaknya statistik uji yang dipilih tidak informatif (bukan fungsi dari parameter yang ditentukan sebagai nilai tetap dalam hipotesis). Ini kembali ke pertanyaan apa yang Anda maksud dengan "curang". Jika itu berarti eksperimen mengontrol koin sesuka hati, maka ini tidak tercermin dalam statistik uji. Saya pikir Anda perlu lebih tepat untuk menemukan indikator yang dapat diukur, dan dengan demikian membuat pertanyaan tersebut dapat diterima untuk uji statistik.
sumber
Kesimpulan yang Anda buat akan SANGAT tergantung pada sebelum Anda memilih untuk kemungkinan curang dan probabilitas sebelumnya bahwa, mengingat sirip berbohong, x kepala dilaporkan.
Menempatkan massa paling banyak di P (10000 kepala dilaporkan | berbohong) adalah sedikit kontra intuitif menurut saya. Kecuali jika reporter itu naif, saya tidak bisa membayangkan ada orang yang melaporkan data yang dipalsukan semacam itu (sebagian besar karena alasan yang Anda sebutkan di pos asli; terlalu mencurigakan bagi kebanyakan orang.) Jika koin itu benar-benar tidak adil dan sirip harus melaporkan memalsukan data, maka saya pikir yang lebih masuk akal (dan sangat perkiraan) sebelum hasil yang dilaporkan mungkin seragam sebelum P (kepala X dilaporkan | berbohong) = 1/201 untuk bilangan bulat {9900, ..., 10100} dan P (x kepala dilaporkan | berbohong) = 0 untuk semua lainnya x. Misalkan Anda berpikir probabilitas berbohong sebelumnya adalah 0,5. Maka beberapa kemungkinan posterior adalah:
P (berbohong | 9900 kepala dilaporkan) = P (berbohong | 10100 kepala dilaporkan) = 0,70;
P (berbaring | 9950 kepala dilaporkan) = P (berbohong | 10050 kepala dilaporkan) = 0,54;
P (berbohong | dilaporkan 10.000 kepala) = 0,47.
Jumlah yang paling masuk akal dari kepala yang dilaporkan dari koin yang adil akan menimbulkan kecurigaan. Hanya untuk menunjukkan seberapa sensitif probabilitas posterior terhadap prior Anda, jika probabilitas kecurangan sebelumnya diturunkan menjadi 0,10, maka probabilitas posterior menjadi:
P (berbohong | 9900 kepala dilaporkan) = P (berbohong | 10100 kepala dilaporkan) = 0,21;
P (berbohong | 9950 kepala dilaporkan) = P (berbohong | 10050 kepala dilaporkan) = 0,11;
P (berbohong | dilaporkan 10.000 kepala) = 0,09.
Jadi saya pikir yang asli (dan jawaban yang berperingkat tinggi) dapat diperluas sedikit; sama sekali tidak boleh Anda menyimpulkan bahwa data dipalsukan tanpa mempertimbangkan informasi sebelumnya. Juga, hanya dengan memikirkan hal ini secara naluriah, kelihatannya probabilitas posterior untuk berbohong kemungkinan besar lebih dipengaruhi oleh probabilitas berbohong daripada oleh distribusi kepala sebelumnya yang dilaporkan mengingat sirip berbohong (kecuali untuk prior yang meletakkan semua massa mereka pada sejumlah kecil kepala dilaporkan karena sirip berbohong, seperti dalam contoh saya.)
sumber
Untuk penjelasan Bayesian, Anda memerlukan distribusi probabilitas sebelumnya pada hasil yang dilaporkan oleh sirip koin berbohong, serta probabilitas sebelumnya untuk berbohong. Ketika Anda melihat nilai yang jauh lebih mungkin di bawah distribusi berbohong daripada yang membalik acak, yang membuat probabilitas posterior Anda berbohong jauh lebih tinggi.
sumber