Andrew Gelman menulis artikel yang luas tentang mengapa pengujian Bayesian AB tidak memerlukan beberapa koreksi hipotesis: Mengapa Kita (Biasanya) Tidak Perlu Khawatir Tentang Multiple Comparisons , 2012.
Saya tidak begitu mengerti: mengapa metode Bayesian tidak membutuhkan banyak koreksi pengujian?
A ~ Distribution1 + Common Distribution
B ~ Distribution2 + Common Distribution
C ~ Distribution3 + Common Distribution
Common Distribution ~ Normal
Pemahaman saya adalah bahwa pendekatan Bayesian yang ditunjukkan di atas menjelaskan distribusi yang mendasari bersama oleh semua hipotesis (tidak seperti dalam koreksi Bonferroni yang sering dilakukan). Apakah alasan saya benar?
hypothesis-testing
bayesian
multiple-comparisons
amuba kata Reinstate Monica
sumber
sumber
Jawaban:
Satu cara aneh untuk menjawab pertanyaan adalah dengan mencatat bahwa metode Bayesian tidak menyediakan cara untuk melakukan ini karena metode Bayesian konsisten dengan aturan bukti yang diterima dan metode yang sering sering bertentangan dengan mereka. Contoh:
Masalahnya bermula dari pembalikan aliran waktu dan informasi yang kerap terjadi, membuat orang sering harus mempertimbangkan apa yang bisa terjadi daripada apa yang sebenarnya terjadi . Sebaliknya, penilaian Bayesian mengaitkan semua penilaian dengan distribusi sebelumnya, yang mengkalibrasi bukti. Sebagai contoh, distribusi sebelumnya untuk perbedaan AB mengkalibrasi semua penilaian AB di masa depan dan tidak harus mempertimbangkan CD.
Dengan pengujian berurutan, ada kebingungan besar tentang bagaimana menyesuaikan perkiraan titik ketika eksperimen diakhiri lebih awal menggunakan inferensi yang sering terjadi. Di dunia Bayesian, "penarikan kembali" sebelumnya pada setiap titik estimasi, dan distribusi posterior yang diperbarui berlaku untuk inferensi setiap saat dan tidak memerlukan pertimbangan ruang sampel yang kompleks.
sumber
Jenis model hierarkis ini memang mengecilkan perkiraan dan mengurangi jumlah klaim palsu sampai batas yang wajar untuk sejumlah kecil hipotesis. Apakah ini menjamin tingkat kesalahan tipe I tertentu? Tidak.
Saran khusus dari Gelman ini (yang mengakui masalah dengan melihat terlalu banyak hal yang berbeda dan kemudian dengan mudah salah menyimpulkan bahwa Anda melihat sesuatu untuk sebagian dari mereka - sebenarnya salah satu topik peliharaannya di blognya) berbeda dari alternatif ekstrem. sudut pandang yang menyatakan bahwa metode Bayesian tidak perlu memperhitungkan multiplisitas, karena semua yang penting adalah kemungkinan Anda (dan prioritas Anda sebelumnya).
sumber
Pertanyaan yang sangat menarik, inilah pendapat saya.
Ini semua tentang penyandian informasi, lalu putar engkol Bayesian. Tampaknya terlalu bagus untuk menjadi kenyataan - tetapi keduanya lebih sulit daripada yang terlihat.
Saya mulai dengan mengajukan pertanyaan
Informasi apa yang digunakan ketika kita khawatir tentang banyak perbandingan?
Saya dapat memikirkan beberapa - yang pertama adalah "pengerukan data" - uji "segalanya" sampai Anda mendapatkan cukup melewati / gagal (saya akan berpikir hampir setiap statistik orang terlatih akan terkena masalah ini). Anda juga memiliki lebih sedikit seram, tetapi pada dasarnya sama "Saya memiliki begitu banyak tes untuk dijalankan - pasti semua tidak bisa benar".
Setelah memikirkan hal ini, satu hal yang saya perhatikan adalah Anda tidak cenderung mendengar banyak tentang hipotesis spesifik atau perbandingan tertentu. Ini semua tentang "koleksi" - ini memicu pemikiran saya terhadap pertukaran - hipotesa yang dibandingkan adalah "mirip" satu sama lain dalam beberapa cara. Dan bagaimana Anda menyandikan nilai tukar ke dalam analisis bayesian? - hiper-prior, model campuran, efek acak, dll !!!
Tetapi pertukaran hanya membuat Anda menjadi bagian dari perjalanan ke sana. Apakah semuanya bisa ditukar? Atau apakah Anda memiliki "sparsity" - seperti hanya beberapa koefisien regresi tidak nol dengan kumpulan kandidat yang besar. Model campuran dan efek acak yang didistribusikan secara normal tidak berfungsi di sini. Mereka mendapatkan "terjebak" di antara kebisingan squashing dan meninggalkan sinyal tidak tersentuh (misalnya dalam contoh Anda menjaga parameter locationB dan locationC sama ", dan mengatur parameter locationA" true "sewenang-wenang besar atau kecil, dan menyaksikan model campuran linear standar gagal.) . Tapi itu bisa diperbaiki - misalnya dengan priors "spike and slab" atau priors "horse shoes".
Jadi itu benar-benar lebih banyak tentang menggambarkan apa jenis hipotesis yang Anda bicarakan dan mendapatkan banyak fitur yang dikenal tercermin dalam sebelumnya dan kemungkinan. Pendekatan Andrew Gelman hanyalah cara untuk menangani kelas yang luas dari berbagai perbandingan secara implisit. Sama seperti kuadrat terkecil dan distribusi normal cenderung berfungsi dengan baik dalam banyak kasus (tetapi tidak semua).
Dalam hal bagaimana hal ini dilakukan, Anda bisa memikirkan seseorang yang beralasan sebagai berikut - grup A dan grup B mungkin memiliki rata-rata yang sama - Saya melihat data, dan artinya "dekat" - Oleh karena itu, untuk mendapatkan perkiraan yang lebih baik untuk keduanya, saya harus mengumpulkan data, karena pemikiran awal saya adalah mereka memiliki rata-rata yang sama. - Jika tidak sama, data memberikan bukti bahwa mereka "dekat", jadi menyatukan "sedikit" tidak akan menyakiti saya terlalu buruk jika hipotesis saya salah (semua model salah, beberapa berguna)
Perhatikan bahwa semua hal di atas bergantung pada premis awal "mereka mungkin sama". Singkirkan itu, dan tidak ada pembenaran untuk pengumpulan. Anda mungkin juga dapat melihat cara berpikir "distribusi normal" tentang tes. "Nol kemungkinan besar", "jika bukan nol, maka mendekati nol adalah kemungkinan berikutnya", "nilai ekstrim tidak mungkin". Pertimbangkan alternatif ini:
Maka argumen tentang mengumpulkan "sedikit" adalah ide yang sangat buruk. Anda lebih baik memilih total pooling atau zero pooling. Jauh lebih seperti Cauchy, spike & slab, jenis situasi (banyak massa sekitar nol, dan banyak massa untuk nilai ekstrim)
Seluruh perbandingan ganda tidak perlu ditangani, karena pendekatan Bayesian memasukkan informasi yang membuat kita khawatir ke dalam kemungkinan sebelumnya dan / atau kemungkinan . Dalam arti itu lebih merupakan pengingat untuk berpikir dengan benar tentang informasi apa yang tersedia untuk Anda, dan memastikan Anda telah memasukkannya dalam analisis Anda.
sumber
Pertama, ketika saya memahami model yang Anda presentasikan, saya pikir itu sedikit berbeda dengan proposal Gelman, yang lebih mirip:
Dalam prakteknya, dengan menambahkan
commonLocation
parameter ini , kesimpulan atas parameter distribusi 3 (di sini lokasi 1, 2 dan 3) tidak lagi independen satu sama lain. Selain itu,commonLocation
cenderung untuk mengecilkan nilai ekspektasi dari parameter ke arah yang sentral (umumnya diperkirakan). Dalam arti tertentu, ini berfungsi sebagai regularisasi atas semua kesimpulan yang membuat kebutuhan koreksi untuk koreksi berganda tidak diperlukan (seperti dalam praktiknya kami melakukan satu akuntansi estimasi multivariat tunggal dari interaksi antara masing-masing melalui penggunaan model).Seperti yang ditunjukkan oleh jawaban lain, koreksi ini tidak menawarkan kontrol apa pun pada kesalahan tipe I tetapi dalam kebanyakan kasus, metode Bayesian tidak menawarkan kontrol semacam itu bahkan pada skala inferensi tunggal dan koreksi untuk beberapa perbandingan harus dianggap berbeda dalam Bayesian. pengaturan.
sumber