Komik xkcd ini (Frequentists vs Bayesians) mengolok-olok seorang ahli statistik yang sering mendapatkan hasil yang jelas salah.
Namun bagi saya nampaknya penalarannya benar dalam arti mengikuti metodologi frequentist standar.
Jadi pertanyaan saya adalah "apakah dia menerapkan metodologi frequentist dengan benar?"
- Jika tidak: apa yang akan menjadi kesimpulan sering yang benar dalam skenario ini? Bagaimana mengintegrasikan "pengetahuan sebelumnya" tentang stabilitas matahari dalam metodologi frequentist?
- Jika ya: wtf? ;-)
bayesian
frequentist
repied2
sumber
sumber
Jawaban:
Masalah utama adalah bahwa percobaan pertama (Sun pergi nova) tidak dapat diulang, yang membuatnya sangat tidak cocok untuk metodologi yang sering menginterpretasikan probabilitas sebagai perkiraan seberapa sering suatu peristiwa memberi bahwa kita dapat mengulangi percobaan berkali-kali. Sebaliknya, probabilitas bayesian ditafsirkan sebagai tingkat keyakinan kami yang memberikan semua pengetahuan sebelumnya, sehingga cocok untuk alasan yang masuk akal tentang peristiwa satu kali. Eksperimen lemparan dadu dapat diulangi, tetapi saya merasa sangat tidak mungkin bahwa frequentist dengan sengaja akan mengabaikan pengaruh percobaan pertama dan menjadi sangat yakin akan signifikansi hasil yang diperoleh.
Meskipun tampaknya penulis mengejek ketergantungan yang sering pada eksperimen berulang dan ketidakpercayaan mereka pada prior, memberikan ketidakcocokan pengaturan eksperimental dengan metodologi frequentist, saya akan mengatakan bahwa tema sebenarnya dari komik ini bukanlah metodologi yang sering terjadi tetapi tidak mengikuti metodologi yang tidak cocok secara umum. Apakah itu lucu atau tidak, itu terserah Anda (bagi saya itu) tetapi saya pikir itu lebih menyesatkan daripada menjelaskan perbedaan antara dua pendekatan.
sumber
Sejauh yang saya bisa lihat bit frequentist masuk akal sejauh ini:
Bayesian juga hanya akal sehat, mencatat bahwa tidak ada ruginya dengan membuat taruhan. Saya yakin pendekatan frequentist, ketika biaya false-positive dan false-negative diperhitungkan (Neyman-Peason?) Akan menarik kesimpulan yang sama dengan menjadi strategi terbaik dalam hal keuntungan jangka panjang.
Untuk meringkas: Sering dan Bayesian sedang ceroboh di sini: Sering untuk secara membabi buta mengikuti resep tanpa mempertimbangkan tingkat signifikansi yang sesuai, biaya false-positive / false-negative atau fisika masalah (yaitu tidak menggunakan akal sehatnya) . Bayesian menjadi ceroboh karena tidak menyatakan priornya secara eksplisit, tetapi sekali lagi menggunakan akal sehat bahwa prior yang dia gunakan jelas benar (jauh lebih mungkin bahwa mesin itu berbohong daripada matahari benar-benar telah meledak), kecerobohan mungkin dimaafkan.
sumber
Mengapa hasil ini tampak "salah?" Seorang Bayesian akan mengatakan bahwa hasilnya tampaknya berlawanan dengan intuisi karena kita memiliki kepercayaan "sebelumnya" tentang kapan matahari akan meledak, dan bukti yang diberikan oleh mesin ini tidak cukup untuk menghilangkan keyakinan itu (sebagian besar karena ketidakpastian itu karena membalik koin). Tetapi seorang frequentist mampu membuat penilaian seperti itu, ia hanya harus melakukannya dalam konteks data, yang bertentangan dengan kepercayaan.
Sumber nyata dari paradoks adalah kenyataan bahwa uji statistik frequentist yang dilakukan tidak memperhitungkan semua data yang tersedia. Tidak ada masalah dengan analisis dalam komik, tetapi hasilnya tampak aneh karena kita tahu bahwa matahari kemungkinan besar tidak akan meledak untuk waktu yang lama. Tapi BAGAIMANA kita tahu ini? Karena kami telah melakukan pengukuran, pengamatan, dan simulasi yang dapat membatasi kapan matahari akan meledak. Jadi, pengetahuan penuh kami harus memperhitungkan titik-titik pengukuran dan data tersebut.
Dalam analisis Bayesian, ini dilakukan dengan menggunakan pengukuran-pengukuran itu untuk membangun prior (walaupun, prosedur untuk mengubah pengukuran menjadi prior tidak terdefinisi dengan baik: pada titik tertentu harus ada prior awal, atau kalau tidak, itu "turtles all jalan turun "). Jadi, ketika Bayesian menggunakan pendahulunya, dia benar-benar memperhitungkan banyak informasi tambahan yang analisis p-value frequentist tidak rahasia untuk.
Jadi, untuk tetap sejajar, analisis penuh masalah sering harus mencakup data tambahan yang sama tentang ledakan matahari yang digunakan untuk membangun bayesian sebelumnya. Tetapi, alih-alih menggunakan prior, frequentist hanya akan memperluas kemungkinan yang ia gunakan untuk menggabungkan pengukuran-pengukuran lainnya, dan nilai-pnya akan dihitung menggunakan kemungkinan penuh itu.
Analisis frequentist penuh kemungkinan besar akan menunjukkan bahwa bagian kedua dari kemungkinan akan jauh lebih membatasi dan akan menjadi kontribusi dominan untuk perhitungan nilai-p (karena kita memiliki banyak informasi tentang matahari, dan kesalahan pada informasi ini kecil (mudah-mudahan)).
Secara praktis, seseorang tidak perlu keluar dan mengumpulkan semua poin data yang diperoleh dari 500 tahun terakhir untuk melakukan perhitungan secara berkala, seseorang dapat memperkirakannya sebagai beberapa istilah kemungkinan sederhana yang mengkodekan ketidakpastian apakah matahari telah meledak atau tidak. Ini kemudian akan menjadi mirip dengan sebelumnya Bayesian, tetapi sedikit berbeda secara filosofis karena itu kemungkinan, yang berarti bahwa itu mengkodekan beberapa pengukuran sebelumnya (sebagai lawan dari sebelumnya, yang mengkodekan beberapa kepercayaan apriori). Istilah baru ini akan menjadi bagian dari kemungkinan dan akan digunakan untuk membangun interval kepercayaan (atau nilai-p atau apa pun), yang bertentangan dengan bayesian sebelumnya, yang diintegrasikan untuk membentuk interval atau posisi yang kredibel.
sumber
Tentu saja, pendekatan "kerap kali" ini tidak ilmiah, karena hasilnya akan sulit direproduksi. Begitu Sun pergi supernova, itu tetap supernova, jadi detektor harus terus berkata "Ya" berulang kali. Namun, pengerjaan berulang mesin ini tidak mungkin menghasilkan hasil "Ya" lagi. Ini dikenali di area yang ingin menampilkan diri mereka sebagai keras dan mencoba untuk mereproduksi hasil percobaan mereka ... yang, sejauh yang saya mengerti, terjadi dengan probabilitas di mana saja antara 5% (menerbitkan kertas asli adalah kesalahan tipe I murni) dan suatu tempat sekitar 30-40% di beberapa bidang medis. Orang-orang meta-analisis dapat mengisi Anda dengan angka yang lebih baik, ini hanya desas-desus yang datang dari waktu ke waktu melalui selentingan statistik.
Satu masalah lain dari perspektif frequentist "benar" adalah bahwa menggulung dadu adalah tes yang paling tidak kuat, dengan daya = tingkat signifikansi (jika tidak lebih rendah; daya 2,7% untuk tingkat signifikansi 5% tidak perlu dibanggakan). Teori Neyman-Pearson untuk uji-t berselisih karena menunjukkan bahwa ini adalah UMPT, dan banyak teori statistik alis yang tinggi (yang harus saya pahami, saya harus akui) dikhususkan untuk memperoleh kurva daya dan menemukan kondisi ketika diberikan Tes adalah yang paling kuat di kelas yang diberikan. (Kredit: @Dikran Marsupial menyebutkan masalah kekuasaan di salah satu komentar.)
Saya tidak tahu apakah ini menyusahkan Anda, tetapi ahli statistik Bayesian ditampilkan di sini sebagai orang yang tidak tahu matematika dan memiliki masalah judi. Seorang ahli statistik Bayesian yang tepat akan mendalilkan sebelumnya, membahas tingkat objektivitasnya, menurunkan posterior, dan menunjukkan seberapa banyak yang mereka pelajari dari data. Tidak ada yang dilakukan, jadi proses Bayes telah disederhanakan terlalu banyak seperti yang sering dilakukan.
Situasi ini menunjukkan skrining klasik untuk masalah kanker (dan saya yakin para biostatistik dapat menggambarkannya lebih baik daripada yang saya bisa). Ketika skrining untuk penyakit langka dengan instrumen tidak sempurna, sebagian besar positif keluar menjadi positif palsu. Ahli statistik yang cerdas tahu itu, dan tahu lebih baik untuk menindaklanjuti penyaringan yang murah dan kotor dengan biopsi yang lebih mahal dan lebih akurat.
sumber
Tidak ada yang salah dengan komik ini, dan alasannya tidak ada hubungannya dengan statistik. Ini ekonomi. Jika frequentist benar, Bumi akan sama dengan tidak dapat dihuni dalam waktu 48 jam. Nilai $ 50 akan secara efektif nol. Bayesian, mengakui hal ini, dapat membuat taruhan mengetahui bahwa keuntungannya adalah $ 50 dalam kasus normal, dan sedikit tidak ada dalam kasus meledak-matahari.
sumber
Sekarang CERN telah memutuskan bahwa neutrino tidak lebih cepat dari cahaya - bagian depan radiasi elektromagnetik akan menghantam bumi sebelum perubahan neutrino diketahui. Setidaknya ini akan memiliki (efek jangka pendek) efek auroral yang spektakuler. Jadi fakta bahwa itu gelap tidak akan mencegah langit menyala; bulan dari bersinar terlalu terang (lih. "Inconstant Moon" karya Larry Niven) dan kilatan spektakuler ketika satelit buatan diuapkan dan dibakar sendiri.
Semua dalam semua - mungkin tes yang salah? (Dan sementara mungkin ada sebelumnya - tidak akan ada cukup waktu untuk penentuan posterior yang realistis.
sumber
Saya setuju dengan @GeorgeLewis bahwa mungkin terlalu dini untuk menyimpulkan bahwa pendekatan Frequentist salah - mari kita jalankan lagi detektor neutrino beberapa kali lagi untuk mengumpulkan lebih banyak data. Tidak perlu dipusingkan dengan prior.
sumber
Poin sederhana yang mungkin hilang di antara semua jawaban verbose di sini adalah bahwa frequentist digambarkan menggambar kesimpulannya berdasarkan pada sampel tunggal. Dalam praktiknya Anda tidak akan pernah melakukan ini.
Mencapai kesimpulan yang valid membutuhkan ukuran sampel yang signifikan secara statistik (atau dengan kata lain, sains perlu diulang). Jadi dalam praktiknya frequentist akan menjalankan mesin beberapa kali dan kemudian sampai pada kesimpulan tentang data yang dihasilkan.
Agaknya ini akan meminta mesin menanyakan pertanyaan yang sama beberapa kali lagi. Dan mungkin jika mesin hanya salah 1 dari setiap 36 kali pola yang jelas akan muncul. Dan dari pola itu (bukan dari satu bacaan tunggal), frequentist akan menarik kesimpulan (cukup akurat, saya akan katakan) mengenai apakah matahari telah meledak atau tidak.
sumber
Jawaban untuk pertanyaan Anda: "apakah dia menerapkan metodologi frequentist dengan benar?" tidak, dia tidak menerapkan pendekatan frequentist. Nilai p untuk masalah ini tidak persis 1/36.
Pertama-tama kita harus mencatat bahwa hipotesis yang terlibat adalah
H0: Matahari belum meledak,
H1: Matahari telah meledak.
Kemudian,
p-value = P ("mesin mengembalikan ya" | Matahari belum meledak).
Untuk menghitung probabilitas ini, kita harus mencatat bahwa "mesin mengembalikan ya" setara dengan "detektor neutrino mengukur ledakan Matahari DAN memberi tahu hasil sebenarnya ATAU detektor neutrino tidak mengukur ledakan Matahari dan terletak pada kita".
Dengan asumsi bahwa lemparan dadu tidak tergantung pada pengukuran detektor neutrino, kita dapat menghitung nilai-p dengan mendefinisikan:
p0 = P ("detektor neutrino mengukur ledakan Matahari" | Matahari belum meledak),
Kemudian, nilai-p adalah
p-value = p0 x 35/36 + (1-p0) x 1/36 = (1/36) x (1+ 34 x p0).
Untuk masalah ini, nilai-p adalah angka antara 1/36 dan 35/36. Nilai p sama dengan 1/36 jika dan hanya jika p0 = 0. Artinya, asumsi tersembunyi dalam kartun ini adalah bahwa mesin detektor tidak akan pernah mengukur Matahari yang meledak jika Matahari belum meledak.
Selain itu, lebih banyak informasi harus dimasukkan dalam kemungkinan tentang bukti eksternal dari ledakan anova yang terjadi.
Semua yang terbaik.
sumber
Saya tidak melihat masalah dengan pendekatan frequentist. Jika hipotesis nol ditolak, nilai-p adalah probabilitas kesalahan tipe 1. Kesalahan tipe 1 menolak hipotesis nol sejati. Dalam hal ini kita memiliki nilai p 0,028. Ini berarti bahwa di antara semua tes hipotesis dengan nilai-p ini yang pernah dilakukan, sekitar 3 dari seratus akan menolak hipotesis nol yang sebenarnya. Dengan konstruksi, ini akan menjadi salah satu kasus itu. Frequentists menerima bahwa kadang-kadang mereka akan menolak hipotesis nol benar atau mempertahankan hipotesis nol palsu (Tipe 2 kesalahan), mereka tidak pernah mengklaim sebaliknya. Selain itu, mereka secara tepat mengukur frekuensi kesimpulan salah mereka dalam jangka panjang.
Mungkin, cara yang kurang membingungkan untuk melihat hasil ini adalah dengan bertukar peran hipotesis. Karena dua hipotesis sederhana, ini mudah dilakukan. Jika nol adalah bahwa matahari menjadi nova, maka nilai-p adalah 35/36 = 0,972. Ini berarti bahwa ini bukan bukti yang menentang hipotesis bahwa matahari berubah menjadi nova, jadi kita tidak dapat menolaknya berdasarkan hasil ini. Ini sepertinya lebih masuk akal. Jika Anda berpikir. Mengapa ada orang yang menganggap bahwa matahari menjadi nova? Aku akan bertanya padamu. Mengapa ada orang yang melakukan eksperimen seperti itu jika pikiran tentang meledak matahari tampak konyol?
Saya pikir ini hanya menunjukkan bahwa seseorang harus menilai kegunaan percobaan sebelumnya. Eksperimen ini, misalnya, akan sama sekali tidak berguna karena menguji sesuatu yang sudah kita ketahui hanya dari melihat ke langit (Yang saya yakin menghasilkan nilai-p yang secara efektif nol). Merancang percobaan yang baik adalah syarat untuk menghasilkan ilmu yang baik. Jika percobaan Anda dirancang dengan buruk, maka apa pun alat inferensi statistik apa yang Anda gunakan, hasil Anda tidak akan berguna.
sumber
Topik yang sangat menarik.
Inilah beberapa pemikiran, bukan analisis yang sempurna ...
Menggunakan pendekatan Bayesian dengan prior noninformatif biasanya memberikan inferensi statistik yang sebanding dengan yang sering terjadi.
Mengapa orang Bayesian memiliki keyakinan kuat sebelumnya bahwa matahari belum meledak? Karena dia tahu sebagai semua orang bahwa matahari tidak pernah meledak sejak awal.
Kita dapat melihat pada beberapa model statistik sederhana dengan prior konjugat yang menggunakan distribusi sebelumnya setara dengan menggunakan distribusi posterior yang berasal dari eksperimen awal dan awal non-infomatif.
Kalimat di atas menunjukkan bahwa Frequentist harus menyimpulkan sebagai Bayesian dengan memasukkan hasil percobaan awal dalam modelnya. Dan inilah yang sebenarnya dilakukan Bayesian : pendahulunya berasal dari pengetahuannya tentang eksperimen awal!
Dalam masalah saat ini, kami memiliki pengamatan : x i dan hasil y = { Ya } dari detektor. Pertanyaan alami adalah: berapa probabilitas bahwa matahari telah meledak, yaitu, apa Pr ( x N + 1 = 0 ) ? Ini adalah dan memperkirakan dari pengamatan yang tersedia dan menghasilkan estimasi yang sangat dekat denganN+1 xi y={Yes} Pr(xN+1=0) θ x 1 , … , x N yθ θ x1,…,xN y 1 N y={Yes} θ θ
sumber
Ini tentu saja merupakan tes tingkat 0,05 yang sering dilakukan - hipotesis nol ditolak kurang dari 5% dari waktu di bawah hipotesis nol dan bahkan kekuatan di bawah alternatif itu hebat.
Di sisi lain, informasi sebelumnya memberi tahu kita bahwa supernova matahari pada suatu titik waktu tertentu sangat tidak mungkin, tetapi kemungkinan berbohong adalah kebetulan.
Intinya: tidak ada yang salah dengan komik dan itu menunjukkan bahwa pengujian hipotesis yang tidak masuk akal mengarah pada tingkat penemuan palsu yang tinggi. Selain itu, Anda mungkin ingin mempertimbangkan informasi sebelumnya dalam penilaian Anda terhadap taruhan yang ditawarkan - itulah mengapa posterior Bayesian yang dikombinasikan dengan analisis keputusan sangat populer.
sumber
Dalam pandangan saya, analisis sering yang lebih benar adalah sebagai berikut: H0: Matahari telah meledak dan mesin mengatakan yang sebenarnya. H1: Matahari belum meledak dan mesin itu berbohong.
Nilai p di sini adalah = P (matahari meledak). p (mesin mengatakan yang sebenarnya) = 0,97. P (matahari meledak)
Ahli statistik tidak dapat menyimpulkan apa pun tanpa mengetahui sifat dari probabilitas kedua.
Meskipun kita tahu bahwa P (matahari meledak) adalah 0, karena matahari seperti bintang tidak meledak menjadi supernova.
sumber