Apakah penaksir Bayes kebal terhadap bias seleksi?
Sebagian besar makalah yang membahas estimasi dalam dimensi tinggi, misalnya, seluruh data sekuens genom, akan sering menimbulkan masalah bias seleksi. Bias seleksi muncul dari fakta bahwa, meskipun kami memiliki ribuan calon prediktor, hanya sedikit yang akan dipilih dan inferensi dilakukan pada beberapa yang dipilih. Jadi prosesnya berjalan dalam dua langkah: (1) pilih subset prediktor (2) melakukan inferensi pada set yang dipilih, misalnya, memperkirakan rasio odds. Dawid dalam makalah paradoksnya tahun 1994 berfokus pada estimator yang tidak bias dan estimator Bayes. Dia menyederhanakan masalah untuk memilih efek terbesar, yang bisa menjadi efek perawatan. Kemudian dia berkata, estimator yang tidak memihak dipengaruhi oleh bias seleksi. Dia menggunakan contoh: anggap
Tetapi pernyataan yang mengkhawatirkan yang dibuat oleh Dawid, Efron dan penulis lainnya adalah penaksir Bayes kebal terhadap bias seleksi. Jika sekarang saya akan meletakkan sebelum , katakan , Maka penaksir Bayes dari diberikan oleh
Jika kita mendefinisikan estimator baru sebagai apapun yang memilih untuk memperkirakan dengan , akan sama dengan jika seleksi didasarkan pada . Ini mengikuti karena adalah monoton di . Kita juga tahu bahwa menyusut ke nol dengan istilah,
sumber
Jawaban:
Seperti yang diuraikan di atas, masalah muncul dengan menarik inferensi pada indeks dan nilai, (i⁰, μ⁰), dari rata-rata terbesar dari sampel rv Normal. Apa yang saya temukan mengejutkan dalam presentasi Dawid adalah bahwa analisis Bayesian tidak terdengar terlalu banyak Bayesian. Jika diberikan seluruh sampel, pendekatan Bayesian harus menghasilkan distribusi posterior pada (i⁰, μ⁰), daripada mengikuti langkah-langkah estimasi, dari memperkirakan i⁰ hingga memperkirakan rata-rata terkait. Dan jika diperlukan, estimator harus berasal dari definisi fungsi kerugian tertentu. Sebaliknya, ketika diberikan titik terbesar dalam sampel, dan hanya titik itu, distribusinya berubah, jadi saya cukup bingung dengan pernyataan bahwa tidak diperlukan penyesuaian.
Pemodelan sebelumnya juga agak mengejutkan bahwa prior pada sarana harus bersama daripada produk Normals independen, karena rata-rata ini dibandingkan dan karenanya dapat dibandingkan. Misalnya prior hierarkis tampaknya lebih tepat, dengan lokasi dan skala diperkirakan dari keseluruhan data. Menciptakan hubungan antara rata-rata ... Keberatan yang relevan terhadap penggunaan prior independen yang tidak patut adalah bahwa rata-rata maksimum μ⁰ maka tidak memiliki ukuran yang terdefinisi dengan baik. Namun, saya tidak berpikir kritik terhadap beberapa prior versus lainnya adalah serangan yang relevan pada "paradoks" ini.
sumber
Sekalipun agak kontra-intuitif, pernyataan itu benar. Asumsikan untuk percobaan ini, maka posterior untuk benar-benar . Fakta kontra-intuitif ini sedikit mirip dengan Bayes yang kebal terhadap (rahasia) penghentian dini (yang juga sangat kontra-intuitif).i∗=5 μ5 N(x5,σ2)
Alasan Bayesian akan mengarah pada kesimpulan yang salah jika untuk setiap percobaan seperti itu (bayangkan Anda ulangi beberapa kali), hanya hasil untuk varietas terbaik yang akan disimpan. Akan ada pemilihan data dan metode Bayesian jelas tidak kebal terhadap pemilihan data (rahasia). Sebenarnya tidak ada metode statistik yang kebal terhadap pemilihan data.
Jika seleksi semacam itu dilakukan, penalaran Bayesian lengkap dengan mempertimbangkan pilihan ini akan dengan mudah memperbaiki ilusi.
Namun kalimat "penaksir Bayes kebal terhadap seleksi Bias" agak berbahaya. Sangat mudah untuk membayangkan situasi di mana "seleksi" berarti sesuatu yang lain, seperti misalnya pemilihan variabel penjelas, atau pemilihan data. Bayes tidak jelas kebal terhadap ini.
sumber