Mengapa metode Bayesian tidak membutuhkan banyak koreksi pengujian?

22

Andrew Gelman menulis artikel yang luas tentang mengapa pengujian Bayesian AB tidak memerlukan beberapa koreksi hipotesis: Mengapa Kita (Biasanya) Tidak Perlu Khawatir Tentang Multiple Comparisons , 2012.

Saya tidak begitu mengerti: mengapa metode Bayesian tidak membutuhkan banyak koreksi pengujian?

A ~ Distribution1 + Common Distribution
B ~ Distribution2 + Common Distribution
C ~ Distribution3 + Common Distribution
Common Distribution ~ Normal

Pemahaman saya adalah bahwa pendekatan Bayesian yang ditunjukkan di atas menjelaskan distribusi yang mendasari bersama oleh semua hipotesis (tidak seperti dalam koreksi Bonferroni yang sering dilakukan). Apakah alasan saya benar?

hypothesis-testing bayesian multiple-comparisons amuba kata Reinstate Monica
sumber

Saya akan mengikuti contoh Andrew Gelman: Mengapa Kita (Biasanya) Tidak Perlu Khawatir tentang Berbagai Perbandingan , 2012. Lihat juga di blog-nya .

Patrick McCann

5

Walaupun tautan Patrick sangat membantu, akan sangat bagus untuk melihat jawaban yang lebih lengkap ditujukan untuk 'resensi ilmiah yang melek statistik secara sedang'.

dugaan

14

Satu cara aneh untuk menjawab pertanyaan adalah dengan mencatat bahwa metode Bayesian tidak menyediakan cara untuk melakukan ini karena metode Bayesian konsisten dengan aturan bukti yang diterima dan metode yang sering sering bertentangan dengan mereka. Contoh:

Dengan statistik frequentist, membandingkan pengobatan A ke B harus menghukum untuk membandingkan perawatan C dan D karena pertimbangan kesalahan tipe I keluarga-bijaksana; dengan Bayesian perbandingan AB berdiri sendiri.
Untuk pengujian frequentist berurutan, hukuman biasanya diperlukan untuk beberapa tampilan data. Dalam pengaturan berurutan grup, perbandingan awal untuk A vs B harus dihukum untuk perbandingan nanti yang belum dibuat, dan perbandingan kemudian harus dihukum untuk perbandingan sebelumnya bahkan jika perbandingan sebelumnya tidak mengubah jalannya belajar.

Masalahnya bermula dari pembalikan aliran waktu dan informasi yang kerap terjadi, membuat orang sering harus mempertimbangkan apa yang bisa terjadi daripada apa yang sebenarnya terjadi . Sebaliknya, penilaian Bayesian mengaitkan semua penilaian dengan distribusi sebelumnya, yang mengkalibrasi bukti. Sebagai contoh, distribusi sebelumnya untuk perbedaan AB mengkalibrasi semua penilaian AB di masa depan dan tidak harus mempertimbangkan CD.

Dengan pengujian berurutan, ada kebingungan besar tentang bagaimana menyesuaikan perkiraan titik ketika eksperimen diakhiri lebih awal menggunakan inferensi yang sering terjadi. Di dunia Bayesian, "penarikan kembali" sebelumnya pada setiap titik estimasi, dan distribusi posterior yang diperbarui berlaku untuk inferensi setiap saat dan tidak memerlukan pertimbangan ruang sampel yang kompleks.

Frank Harrell
sumber

4

Saya tidak begitu mengerti argumen ini. Jika kita melakukan 1000 perbandingan berbeda dengan pendekatan frequentist biasa maka tentu saja kita harus mengharapkan sekitar 50 signifikan dengan p <0,05 efek bahkan di bawah nol. Karena itu koreksi. Jika kita menggunakan estimasi / pengujian Bayesian, memiliki beberapa prior (sekitar 0?) Untuk semua perbandingan, maka ya prior akan mengecilkan posisinya menjadi nol, tetapi kita masih akan memiliki berbagai posisi dan / atau faktor Bayes yang secara acak berbeda dan mungkin akan memiliki beberapa case dari 1000 yang akan terlihat seperti efek "substansial", bahkan ketika efek yang benar semuanya nol.

Amoeba berkata Reinstate Monica

1

2^{1000}

$2^{1000}$

2^{1000} - 1

$2^{1000}-1$

1

Maaf, @probabilityislogic, saya tidak yakin saya mengerti maksud Anda. Cukup adil tentang "semua alternatif", tetapi apa yang terjadi dalam praktik? Seperti yang saya katakan, kami memperkirakan 1000 perbedaan kelompok (misalnya); kami memiliki sebelumnya pada perbedaan kelompok; kami mendapatkan 1000 posisi, interval yang kredibel 95%, atau apa pun. Kemudian kita akan melihat setiap interval yang kredibel untuk memeriksa apakah itu cukup jauh dari nol untuk menjadi efek "bermakna / substansial". Jika kita melakukan ini 1000 kali, kita cenderung memiliki "false positive" dalam arti bahwa beberapa efek akan tampak besar bahkan jika semua 1000 efek pada kenyataannya sama dengan nol. Tidak?

Amuba kata Reinstate Monica

1

1000

$1000$

1

@probabilityislogic: Ya, saya benar-benar mendukung model multilevel, meskipun saya tidak melihatnya sebagai alat Bayesian - model campuran dan ANOVA dengan efek acak biasanya digunakan bersama dengan uji-t dan semacamnya ...

amoeba berkata Reinstate Monica

6

Jenis model hierarkis ini memang mengecilkan perkiraan dan mengurangi jumlah klaim palsu sampai batas yang wajar untuk sejumlah kecil hipotesis. Apakah ini menjamin tingkat kesalahan tipe I tertentu? Tidak.

Saran khusus dari Gelman ini (yang mengakui masalah dengan melihat terlalu banyak hal yang berbeda dan kemudian dengan mudah salah menyimpulkan bahwa Anda melihat sesuatu untuk sebagian dari mereka - sebenarnya salah satu topik peliharaannya di blognya) berbeda dari alternatif ekstrem. sudut pandang yang menyatakan bahwa metode Bayesian tidak perlu memperhitungkan multiplisitas, karena semua yang penting adalah kemungkinan Anda (dan prioritas Anda sebelumnya).

Björn
sumber

1

(+1) Sejauh yang saya ketahui dalam beberapa kasus (mis. Tidak berdimensi dengan pencocokan sebelumnya) Bayesian inference tidak menawarkan kontrol pada tingkat kesalahan tipe 1. Jadi Multiple Testing Correction dalam pengaturan Bayesian tidak bisa dianggap IHMO sebagai koreksi untuk kesalahan tipe-1.

peuhp

3

+1. Dalam salah satu ironi kehidupan yang mengerikan, saya menulis sebuah makalah “Mengapa kita (biasanya) tidak perlu khawatir tentang banyak perbandingan” tetapi sekarang saya menghabiskan banyak waktu untuk mengkhawatirkan perbandingan ganda (Gelman)

amoeba berkata Reinstate Monica

6

Pertanyaan yang sangat menarik, inilah pendapat saya.

Ini semua tentang penyandian informasi, lalu putar engkol Bayesian. Tampaknya terlalu bagus untuk menjadi kenyataan - tetapi keduanya lebih sulit daripada yang terlihat.

Saya mulai dengan mengajukan pertanyaan

Informasi apa yang digunakan ketika kita khawatir tentang banyak perbandingan?

Saya dapat memikirkan beberapa - yang pertama adalah "pengerukan data" - uji "segalanya" sampai Anda mendapatkan cukup melewati / gagal (saya akan berpikir hampir setiap statistik orang terlatih akan terkena masalah ini). Anda juga memiliki lebih sedikit seram, tetapi pada dasarnya sama "Saya memiliki begitu banyak tes untuk dijalankan - pasti semua tidak bisa benar".

Setelah memikirkan hal ini, satu hal yang saya perhatikan adalah Anda tidak cenderung mendengar banyak tentang hipotesis spesifik atau perbandingan tertentu. Ini semua tentang "koleksi" - ini memicu pemikiran saya terhadap pertukaran - hipotesa yang dibandingkan adalah "mirip" satu sama lain dalam beberapa cara. Dan bagaimana Anda menyandikan nilai tukar ke dalam analisis bayesian? - hiper-prior, model campuran, efek acak, dll !!!

Tetapi pertukaran hanya membuat Anda menjadi bagian dari perjalanan ke sana. Apakah semuanya bisa ditukar? Atau apakah Anda memiliki "sparsity" - seperti hanya beberapa koefisien regresi tidak nol dengan kumpulan kandidat yang besar. Model campuran dan efek acak yang didistribusikan secara normal tidak berfungsi di sini. Mereka mendapatkan "terjebak" di antara kebisingan squashing dan meninggalkan sinyal tidak tersentuh (misalnya dalam contoh Anda menjaga parameter locationB dan locationC sama ", dan mengatur parameter locationA" true "sewenang-wenang besar atau kecil, dan menyaksikan model campuran linear standar gagal.) . Tapi itu bisa diperbaiki - misalnya dengan priors "spike and slab" atau priors "horse shoes".

Jadi itu benar-benar lebih banyak tentang menggambarkan apa jenis hipotesis yang Anda bicarakan dan mendapatkan banyak fitur yang dikenal tercermin dalam sebelumnya dan kemungkinan. Pendekatan Andrew Gelman hanyalah cara untuk menangani kelas yang luas dari berbagai perbandingan secara implisit. Sama seperti kuadrat terkecil dan distribusi normal cenderung berfungsi dengan baik dalam banyak kasus (tetapi tidak semua).

Dalam hal bagaimana hal ini dilakukan, Anda bisa memikirkan seseorang yang beralasan sebagai berikut - grup A dan grup B mungkin memiliki rata-rata yang sama - Saya melihat data, dan artinya "dekat" - Oleh karena itu, untuk mendapatkan perkiraan yang lebih baik untuk keduanya, saya harus mengumpulkan data, karena pemikiran awal saya adalah mereka memiliki rata-rata yang sama. - Jika tidak sama, data memberikan bukti bahwa mereka "dekat", jadi menyatukan "sedikit" tidak akan menyakiti saya terlalu buruk jika hipotesis saya salah (semua model salah, beberapa berguna)

Perhatikan bahwa semua hal di atas bergantung pada premis awal "mereka mungkin sama". Singkirkan itu, dan tidak ada pembenaran untuk pengumpulan. Anda mungkin juga dapat melihat cara berpikir "distribusi normal" tentang tes. "Nol kemungkinan besar", "jika bukan nol, maka mendekati nol adalah kemungkinan berikutnya", "nilai ekstrim tidak mungkin". Pertimbangkan alternatif ini:

kelompok A dan kelompok B berarti mungkin sama, tetapi mereka juga bisa sangat berbeda

Maka argumen tentang mengumpulkan "sedikit" adalah ide yang sangat buruk. Anda lebih baik memilih total pooling atau zero pooling. Jauh lebih seperti Cauchy, spike & slab, jenis situasi (banyak massa sekitar nol, dan banyak massa untuk nilai ekstrim)

Seluruh perbandingan ganda tidak perlu ditangani, karena pendekatan Bayesian memasukkan informasi yang membuat kita khawatir ke dalam kemungkinan sebelumnya dan / atau kemungkinan . Dalam arti itu lebih merupakan pengingat untuk berpikir dengan benar tentang informasi apa yang tersedia untuk Anda, dan memastikan Anda telah memasukkannya dalam analisis Anda.

probabilityislogic
sumber

2

l_{1}

$l_1$

\exp (- | x |)

$\exp(-|x|)$

@StasK - l1 akan bekerja lebih baik, tetapi karena log-cekung akan berjuang dengan non-nol jarang. Yang saya sebutkan semua log-cembung. Varian yang dekat dengan l1 adalah pareto ganda umum - dapatkan dengan mengambil campuran parameter skala laplace (mirip dengan laso adaptif dalam bahasa ML)

probabilityislogic

5

Pertama, ketika saya memahami model yang Anda presentasikan, saya pikir itu sedikit berbeda dengan proposal Gelman, yang lebih mirip:

A ~ Distribution(locationA)
B ~ Distribution(locationB)
C ~ Distribution(locationC)

locationA ~ Normal(commonLocation)
locationB ~ Normal(commonLocation)
locationC ~ Normal(commonLocation)

commonLocation ~ hyperPrior

Dalam prakteknya, dengan menambahkan commonLocationparameter ini , kesimpulan atas parameter distribusi 3 (di sini lokasi 1, 2 dan 3) tidak lagi independen satu sama lain. Selain itu, commonLocationcenderung untuk mengecilkan nilai ekspektasi dari parameter ke arah yang sentral (umumnya diperkirakan). Dalam arti tertentu, ini berfungsi sebagai regularisasi atas semua kesimpulan yang membuat kebutuhan koreksi untuk koreksi berganda tidak diperlukan (seperti dalam praktiknya kami melakukan satu akuntansi estimasi multivariat tunggal dari interaksi antara masing-masing melalui penggunaan model).

Seperti yang ditunjukkan oleh jawaban lain, koreksi ini tidak menawarkan kontrol apa pun pada kesalahan tipe I tetapi dalam kebanyakan kasus, metode Bayesian tidak menawarkan kontrol semacam itu bahkan pada skala inferensi tunggal dan koreksi untuk beberapa perbandingan harus dianggap berbeda dalam Bayesian. pengaturan.

peuhp
sumber

Mengapa metode Bayesian tidak membutuhkan banyak koreksi pengujian?

Jawaban: