Argumen statistik mengapa 10.000 kepala dari 20.000 lemparan menunjukkan data yang tidak valid

11

Katakanlah kita berulang kali melemparkan koin yang adil, dan kita tahu jumlah kepala dan ekor harus kira-kira sama. Ketika kami melihat hasil seperti 10 kepala dan 10 ekor untuk total 20 kali lemparan, kami percaya hasilnya dan cenderung percaya bahwa koin itu adil.

Nah ketika Anda melihat hasil seperti 10.000 kepala dan 10.000 ekor untuk total 20.000 lemparan, saya benar-benar akan mempertanyakan validitas hasilnya (apakah pelaku eksperimen memalsukan data), karena saya tahu ini lebih tidak mungkin daripada, katakanlah hasil dari 10093 ekor dan 9907 ekor.

Apa argumen statistik di balik intuisi saya?

Haibao Tang
sumber

Jawaban:

21

Dengan asumsi koin yang adil, hasil 10.000 kepala dan 10.000 ekor sebenarnya lebih mungkin daripada hasil 10093 kepala dan 9907 ekor.

Namun, ketika Anda mengatakan bahwa eksperimen sejati tidak mungkin mendapatkan jumlah kepala dan ekor yang sama, Anda secara implisit menggunakan teorema Bayes. Kepercayaan Anda sebelumnya tentang percobaan nyata adalah bahwa Prob (Jumlah kepala = 10.000 dalam 20.000 lemparan | Mengingat bahwa pelaku eksperimen tidak berpura-pura) mendekati 0. Dengan demikian, ketika Anda melihat hasil aktual bahwa 'Tidak ada kepala = 10.000' Anda posterior tentang Prob (Experimenter tidak berpura-pura | hasil yang diamati dari 10.000 kepala) juga mendekati 0. Jadi, Anda menyimpulkan bahwa eksperimen tersebut memalsukan data.


sumber
Dijelaskan dengan sangat baik! Betapa merupakan contoh yang bagus untuk pendekatan teorema Bayes.
Tal Galili
1
@ Srikant: yang sebelumnya tidak dapat didefinisikan secara formal. Bagaimanapun, Prob (No of head = X | experimententer tidak berpura-pura) selalu sekitar nol ketika N = 20000, tidak peduli nilai X dan tidak peduli Anda sebelumnya. Jadi posterior Anda untuk nomor berapa pun juga selalu mendekati 0. Saya tidak melihat apa hubungannya dengan teorema Bayes.
Joris Meys
Semua ini dari seorang lelaki yang bersembunyi mencoba membuktikan bahwa Tuhan itu ada. Elegan, sungguh.
Brandon Bertelsen
1
Menempatkan ini dalam perspektif yang lebih umum, intinya, yang saya setujui, adalah bahwa teorema Bayes sedang bekerja di sini. Secara khusus ada kemungkinan alternatif (sesuai dengan proses generatif yang berbeda) untuk menipu dan untuk peneliti yang jujur. Menetapkan kecurangan adalah kesimpulan posterior sehubungan dengan proses penipu yang kurang jelas dan intuitif.
conjugateprior
1
@ Srikant @whuber: kombinatorial ... Anda benar. Saya mulai dari probabilitas yang seragam, yang tentunya omong kosong dalam kasus ini. Saya buruk
Joris Meys
12

Saya suka penjelasan Srikant, dan saya pikir ide Bayesian mungkin adalah cara terbaik untuk mendekati masalah seperti ini. Tapi di sini ada cara lain untuk melihatnya tanpa Bayes: (dalam R)

dbinom(10, size = 20, prob = 0.5)/dbinom(10000, 20000, 0.5)

yaitu sekitar 31.2 di sistem saya. Dengan kata lain, itu lebih dari 30 kali lebih mungkin untuk melihat 10 dari 20 daripada melihat 10.000 dari 20.000, bahkan dengan koin yang adil dalam kedua kasus. Rasio ini meningkat tanpa batas ketika ukuran sampel meningkat.

Ini adalah semacam pendekatan rasio kemungkinan, tetapi sekali lagi, dalam perut saya ini terasa seperti panggilan Bayesian lebih dari apa pun.


sumber
Mengapa rasionya? Mengapa tidak hanya menyatakan bahwa kemungkinan undian yang tepat sangat rendah?
Andy W
5
Pernyataan bahwa probabilitas tertentu rendah di luar konteks tidak meyakinkan. Probabilitas bahwa saya persis setinggi tinggi badan saya (apa pun itu) adalah nol. Dan, ya, bermasalah bahkan untuk menentukan ketinggian dengan ketepatan tak terbatas, yada, yada, yada ... Maksud saya adalah bahwa pusaran keberadaan bergejolak dengan peristiwa-peristiwa probabilitas sangat kecil yang terjadi sepanjang waktu! 10.000 dari 20.000 - di luar konteks - tidak mengejutkan saya sama sekali. Terlepas dari apa probabilitas numeriknya.
9

Sebuah subyektivis Bayesian argumen praktis satu-satunya cara (dari sudut pandang statistik) Anda bisa pergi tentang pemahaman Anda intuisi , yang - berbicara dengan benar - subjek psikologis investigasi, tidak satu statistik. Namun, jelas tidak adil - dan karenanya tidak valid - untuk menggunakan pendekatan Bayesian untuk menyatakan bahwa penyelidik memalsukan data. Logikanya melingkar sempurna: ia mengatakan, "berdasarkan kepercayaan saya sebelumnya tentang hasilnya, saya menemukan hasil Anda luar biasa, dan karena itu Anda pasti curang." Argumen yang mementingkan diri sendiri yang tidak logis semacam itu jelas tidak akan muncul di ruang sidang atau dalam proses peer review.

Sebagai gantinya, kita dapat mengambil tip dari kritik Ronald Fisher terhadap eksperimen Mendel dan melakukan tes hipotesis formal. Tentu saja tidak valid untuk menguji hipotesis post hoc berdasarkan hasilnya. Tetapi percobaan harus direplikasi agar dapat dipercaya: itulah prinsip metode ilmiah. Jadi, setelah melihat satu hasil yang kami pikir telah dipalsukan, kami dapat merumuskan hipotesis yang sesuai untuk menguji hasil di masa depan (atau tambahan). Dalam hal ini wilayah kritis akan terdiri dari serangkaian hasil yang sangat dekat dengan harapan. Misalnya, tes diα= Tingkat 5% akan melihat hasil antara 9.996 dan 10.004 sebagai tersangka, karena (a) koleksi ini dekat dengan hasil "palsu" kami yang dihipotesiskan dan (b) di bawah hipotesis nol yaitu tidak berpura-pura (tidak bersalah sampai terbukti bersalah di pengadilan!) , hasil dalam kisaran ini hanya memiliki peluang 5% (sebenarnya 5,07426%) terjadi. Selain itu, kita dapat menempatkan pendekatan yang tampaknya ad hoc ini dalam konteks chi-square (a Fisher) hanya dengan mengkuadratkan deviasi antara proporsi yang diamati dan proporsi yang diharapkan, kemudian menggunakan lemma Neyman-Pearson dalam uji satu sisi di ekor rendah dan menerapkan pendekatan Normal ke distribusi Binomial .

Meskipun pengujian semacam itu tidak dapat membuktikan pemalsuan, itu dapat diterapkan pada laporan di masa depan dari eksperimen untuk menilai kredibilitas klaim mereka, tanpa membuat asumsi yang tidak diinginkan dan tidak didukung berdasarkan pada intuisi Anda sendiri. Ini jauh lebih adil dan teliti daripada mengajukan argumen Bayesian untuk melibatkan seseorang yang mungkin benar-benar tidak bersalah dan kebetulan sangat sial sehingga mereka mendapatkan hasil eksperimen yang indah!

whuber
sumber
5

Saya pikir intuisi Anda cacat. Tampaknya Anda secara implisit membandingkan hasil tunggal, "sangat istimewa" (tepatnya 10.000 kepala) dengan sekumpulan banyak hasil (semua jumlah "tidak khusus" kepala mendekati 10.000). Namun, definisi "khusus" adalah pilihan sewenang-wenang berdasarkan psikologi kita. Bagaimana dengan binary 10000000000000 (desimal 8192) atau Hex ABC (desimal 2748) - apakah itu juga mencurigakan? Seperti yang dikomentari Joris Meys, argumen Bayes pada dasarnya akan sama untuk sejumlah kepala, yang menyiratkan bahwa setiap hasil akan mencurigakan.

Untuk sedikit memperluas argumen: Anda ingin menguji hipotesis ("pelaku percobaan berpura-pura"), dan kemudian Anda memilih statistik uji (jumlah kepala). Sekarang, apakah statistik uji ini cocok untuk memberi tahu Anda tentang hipotesis Anda? Bagi saya, tampaknya statistik uji yang dipilih tidak informatif (bukan fungsi dari parameter yang ditentukan sebagai nilai tetap dalam hipotesis). Ini kembali ke pertanyaan apa yang Anda maksud dengan "curang". Jika itu berarti eksperimen mengontrol koin sesuka hati, maka ini tidak tercermin dalam statistik uji. Saya pikir Anda perlu lebih tepat untuk menemukan indikator yang dapat diukur, dan dengan demikian membuat pertanyaan tersebut dapat diterima untuk uji statistik.

caracal
sumber
+1, Tapi saya tidak yakin. Yang istimewa dari 10.000 adalah persis sama dengan jumlah kepala yang diharapkan berdasarkan hipotesis bahwa koin itu adil. Fakta ini tidak tergantung pada psikologi atau sistem representasi angka mana pun. Analisis dalam respons ini mungkin memberikan beberapa wawasan tentang situasi di mana, katakanlah, 20.005 koin terbalik dan 10.000 kepala (dan karenanya 10.005 ekor) dicatat dan "intuisi" seseorang menyarankan pemalsuan terjadi.
Whuber
Saya sepenuhnya setuju bahwa - seperti yang Anda tunjukkan dalam jawaban Anda - semuanya tergantung pada definisi a-priori dari hipotesis: jika Anda mendefinisikan sebelumnya bahwa dengan "memalsukan percobaan" yang Anda maksudkan "mencapai hasil untuk sejumlah kepala yang dekat dengan nilai yang diharapkan ", maka itulah dasar untuk uji statistik dengan" jumlah kepala "sebagai statistik uji. Namun, tanpa klarifikasi a-priori seperti itu, makna "berpura-pura" dan "nilai khusus untuk jumlah kepala" tetap kabur, dan tidak jelas apa yang harus mereka lakukan satu sama lain.
caracal
4

Kesimpulan yang Anda buat akan SANGAT tergantung pada sebelum Anda memilih untuk kemungkinan curang dan probabilitas sebelumnya bahwa, mengingat sirip berbohong, x kepala dilaporkan.

Menempatkan massa paling banyak di P (10000 kepala dilaporkan | berbohong) adalah sedikit kontra intuitif menurut saya. Kecuali jika reporter itu naif, saya tidak bisa membayangkan ada orang yang melaporkan data yang dipalsukan semacam itu (sebagian besar karena alasan yang Anda sebutkan di pos asli; terlalu mencurigakan bagi kebanyakan orang.) Jika koin itu benar-benar tidak adil dan sirip harus melaporkan memalsukan data, maka saya pikir yang lebih masuk akal (dan sangat perkiraan) sebelum hasil yang dilaporkan mungkin seragam sebelum P (kepala X dilaporkan | berbohong) = 1/201 untuk bilangan bulat {9900, ..., 10100} dan P (x kepala dilaporkan | berbohong) = 0 untuk semua lainnya x. Misalkan Anda berpikir probabilitas berbohong sebelumnya adalah 0,5. Maka beberapa kemungkinan posterior adalah:

P (berbohong | 9900 kepala dilaporkan) = P (berbohong | 10100 kepala dilaporkan) = 0,70;

P (berbaring | 9950 kepala dilaporkan) = P (berbohong | 10050 kepala dilaporkan) = 0,54;

P (berbohong | dilaporkan 10.000 kepala) = 0,47.

Jumlah yang paling masuk akal dari kepala yang dilaporkan dari koin yang adil akan menimbulkan kecurigaan. Hanya untuk menunjukkan seberapa sensitif probabilitas posterior terhadap prior Anda, jika probabilitas kecurangan sebelumnya diturunkan menjadi 0,10, maka probabilitas posterior menjadi:

P (berbohong | 9900 kepala dilaporkan) = P (berbohong | 10100 kepala dilaporkan) = 0,21;

P (berbohong | 9950 kepala dilaporkan) = P (berbohong | 10050 kepala dilaporkan) = 0,11;

P (berbohong | dilaporkan 10.000 kepala) = 0,09.

Jadi saya pikir yang asli (dan jawaban yang berperingkat tinggi) dapat diperluas sedikit; sama sekali tidak boleh Anda menyimpulkan bahwa data dipalsukan tanpa mempertimbangkan informasi sebelumnya. Juga, hanya dengan memikirkan hal ini secara naluriah, kelihatannya probabilitas posterior untuk berbohong kemungkinan besar lebih dipengaruhi oleh probabilitas berbohong daripada oleh distribusi kepala sebelumnya yang dilaporkan mengingat sirip berbohong (kecuali untuk prior yang meletakkan semua massa mereka pada sejumlah kecil kepala dilaporkan karena sirip berbohong, seperti dalam contoh saya.)

HairyBeast
sumber
Saya pikir ini adalah jawaban yang sangat bagus, tetapi saya tidak setuju dengan paragraf kedua Anda. Saya tidak berpikir probabilitas bersyarat asli Srikant adalah kontra-intuitif, dan hanya karena itu adalah pertanyaan yang sulit dijawab bukan argumen yang menentangnya. Saya juga tidak berpikir probabilitas seragam Anda untuk berbaring dalam 9900 hingga 10100 masuk akal sama sekali, meskipun ini berguna untuk tujuan demonstrasi.
Andy W
2

Untuk penjelasan Bayesian, Anda memerlukan distribusi probabilitas sebelumnya pada hasil yang dilaporkan oleh sirip koin berbohong, serta probabilitas sebelumnya untuk berbohong. Ketika Anda melihat nilai yang jauh lebih mungkin di bawah distribusi berbohong daripada yang membalik acak, yang membuat probabilitas posterior Anda berbohong jauh lebih tinggi.

Internet
sumber