Pengukur bayes kebal terhadap seleksi Bias

11

Apakah penaksir Bayes kebal terhadap bias seleksi?

Sebagian besar makalah yang membahas estimasi dalam dimensi tinggi, misalnya, seluruh data sekuens genom, akan sering menimbulkan masalah bias seleksi. Bias seleksi muncul dari fakta bahwa, meskipun kami memiliki ribuan calon prediktor, hanya sedikit yang akan dipilih dan inferensi dilakukan pada beberapa yang dipilih. Jadi prosesnya berjalan dalam dua langkah: (1) pilih subset prediktor (2) melakukan inferensi pada set yang dipilih, misalnya, memperkirakan rasio odds. Dawid dalam makalah paradoksnya tahun 1994 berfokus pada estimator yang tidak bias dan estimator Bayes. Dia menyederhanakan masalah untuk memilih efek terbesar, yang bisa menjadi efek perawatan. Kemudian dia berkata, estimator yang tidak memihak dipengaruhi oleh bias seleksi. Dia menggunakan contoh: anggap

ZiN(δi,1),i=1,,N
ZiδiZ=(Z1,Z2,,ZN)T
γ1(Z)=max{Z1,Z2,,ZN}
max{δ1,δ2,,δN}imaxδi, kami hanya akan menggunakan Zimax sebagai estimatornya yang tidak bias. Tetapi karena kita tidak mengetahui hal ini, kita menggunakan γ1(Z) sebagai gantinya yang menjadi bias (positif).

masukkan deskripsi gambar di sini

Tetapi pernyataan yang mengkhawatirkan yang dibuat oleh Dawid, Efron dan penulis lainnya adalah penaksir Bayes kebal terhadap bias seleksi. Jika sekarang saya akan meletakkan sebelum δi , katakan δig(.) , Maka penaksir Bayes dari δi diberikan oleh

E{δiZi}=zi+ddzim(zi)
mana m(zi)=φ(ziδi)g(δi)dδi , dengan φ(.) Gaussian standar.

Jika kita mendefinisikan estimator baru sebagai apapun yang memilih untuk memperkirakan dengan , akan sama dengan jika seleksi didasarkan pada . Ini mengikuti karena adalah monoton di . Kita juga tahu bahwa menyusut ke nol dengan istilah,δimax

γ2(Z)=max{E{δ1Z1},E{δ2Z2},,E{δNZN}},
iδimaxγ1(Z)iγ2(Z)γ2(Z)ZiE{δiZi}Ziddzim(zi)yang mengurangi beberapa bias positif di . Tetapi bagaimana kita menyimpulkan bahwa estimator Bayes kebal terhadap seleksi bias. Saya benar-benar tidak mengerti.Zi
Chamberlain Foncha
sumber
1
Mengingat bahwa Anda merujuk klaim dalam sebuah literatur, dapatkah Anda memberikan situasi lengkap dan referensi halaman, sehingga kami dapat membaca konteks lengkap klaim ini.
Ben - Pasang kembali Monica
Apakah mendefinisikan penduga sebagai maks penaksir Bayes masih merupakan penaksir Bayes?
Xi'an
Contoh 1 di koran.
Chamberlain Foncha

Jawaban:

4

Seperti yang diuraikan di atas, masalah muncul dengan menarik inferensi pada indeks dan nilai, (i⁰, μ⁰), dari rata-rata terbesar dari sampel rv Normal. Apa yang saya temukan mengejutkan dalam presentasi Dawid adalah bahwa analisis Bayesian tidak terdengar terlalu banyak Bayesian. Jika diberikan seluruh sampel, pendekatan Bayesian harus menghasilkan distribusi posterior pada (i⁰, μ⁰), daripada mengikuti langkah-langkah estimasi, dari memperkirakan i⁰ hingga memperkirakan rata-rata terkait. Dan jika diperlukan, estimator harus berasal dari definisi fungsi kerugian tertentu. Sebaliknya, ketika diberikan titik terbesar dalam sampel, dan hanya titik itu, distribusinya berubah, jadi saya cukup bingung dengan pernyataan bahwa tidak diperlukan penyesuaian.

Pemodelan sebelumnya juga agak mengejutkan bahwa prior pada sarana harus bersama daripada produk Normals independen, karena rata-rata ini dibandingkan dan karenanya dapat dibandingkan. Misalnya prior hierarkis tampaknya lebih tepat, dengan lokasi dan skala diperkirakan dari keseluruhan data. Menciptakan hubungan antara rata-rata ... Keberatan yang relevan terhadap penggunaan prior independen yang tidak patut adalah bahwa rata-rata maksimum μ⁰ maka tidak memiliki ukuran yang terdefinisi dengan baik. Namun, saya tidak berpikir kritik terhadap beberapa prior versus lainnya adalah serangan yang relevan pada "paradoks" ini.

Xi'an
sumber
1
Tampak bagi saya bahwa semua perlindungan yang diperlukan harus dikodekan dalam sebelumnya yang menghubungkan semua cara yang tidak diketahui. Jika sebelumnya membuat perbedaan besar antara sarana sangat tidak mungkin, yang akan tercermin dalam posterior membuatnya sempurna.
Frank Harrell
@ Xi'an, bisakah Anda memberi contoh bagaimana Anda akan menempatkan prioritas pada ? (i,μ)
Chamberlain Foncha
@ Frank Harrel, perhatikan misalnya dan . Estimator yang tidak bias dari adalah . Estimator Bayes dari adalah . Jika adalah terbesar maka , karena penaksir Bayes adalah monoton dalam . Tidak peduli seberapa informatif sebelumnya, ini tidak akan berubah. Namun, mengurangi Bayes positif di . Tetapi jika yang salah dipilih, estimator Bayes tidak dapat memperbaikinya.δiN(a,1)ZiN(δi,1)δiZiδiE(δi|Zi)Zi0ZiE(δi0|Zi0)ZiE(δi0|Zi0)Zi0i0
Chamberlain Foncha
@ChamberlainFoncha: Estimator Bayes hanya ketika adalah independen apriori. Sambungan sebelumnya pada dan membuat mereka benar-benar bergantung. E[δi|Zi]δiiμi
Xi'an
Dan setiap prior dapat diterima dari sudut pandang Bayesian, misalnya distribusi seragam pada indeks dan prior hierarkis pada . μi
Xi'an
1

Sekalipun agak kontra-intuitif, pernyataan itu benar. Asumsikan untuk percobaan ini, maka posterior untuk benar-benar . Fakta kontra-intuitif ini sedikit mirip dengan Bayes yang kebal terhadap (rahasia) penghentian dini (yang juga sangat kontra-intuitif).i=5μ5N(x5,σ2)

Alasan Bayesian akan mengarah pada kesimpulan yang salah jika untuk setiap percobaan seperti itu (bayangkan Anda ulangi beberapa kali), hanya hasil untuk varietas terbaik yang akan disimpan. Akan ada pemilihan data dan metode Bayesian jelas tidak kebal terhadap pemilihan data (rahasia). Sebenarnya tidak ada metode statistik yang kebal terhadap pemilihan data.

Jika seleksi semacam itu dilakukan, penalaran Bayesian lengkap dengan mempertimbangkan pilihan ini akan dengan mudah memperbaiki ilusi.

Namun kalimat "penaksir Bayes kebal terhadap seleksi Bias" agak berbahaya. Sangat mudah untuk membayangkan situasi di mana "seleksi" berarti sesuatu yang lain, seperti misalnya pemilihan variabel penjelas, atau pemilihan data. Bayes tidak jelas kebal terhadap ini.

Benoit Sanchez
sumber