Saya sering berbicara tentang peminjaman informasi atau berbagi informasi dalam model hirarki Bayesian. Saya sepertinya tidak bisa mendapatkan jawaban langsung tentang apa arti sebenarnya ini dan apakah itu unik untuk model hierarkis Bayesian. Saya mendapatkan semacam ide: beberapa level dalam hierarki Anda berbagi parameter umum. Saya tidak tahu bagaimana ini berarti "meminjam informasi".
Apakah "meminjam informasi" / "berbagi informasi" adalah kata buzz yang suka dibuang orang?
Apakah ada contoh dengan eksterior bentuk tertutup yang menggambarkan fenomena berbagi ini?
Apakah ini unik untuk analisis Bayesian? Secara umum, ketika saya melihat contoh "peminjaman informasi" mereka hanya model campuran. Mungkin saya mempelajari model ini dengan cara lama, tapi saya tidak melihat ada yang berbagi.
Saya tidak tertarik memulai debat filosofis tentang metode. Saya hanya ingin tahu tentang penggunaan istilah ini.
Jawaban:
Ini adalah istilah yang secara khusus dari Bayes empiris (EB), pada kenyataannya konsep yang dimaksud tidak ada dalam inferensi Bayesian sejati. Istilah aslinya adalah "meminjam kekuatan", yang diciptakan oleh John Tukey kembali pada 1960-an dan dipopulerkan lebih lanjut oleh Bradley Efron dan Carl Morris dalam serangkaian artikel statistik tentang paradoks Stein dan EB parametrik pada 1970-an dan 1980-an. Banyak orang sekarang menggunakan "peminjaman informasi" atau "berbagi informasi" sebagai sinonim untuk konsep yang sama. Alasan mengapa Anda mungkin mendengarnya dalam konteks model campuran adalah bahwa analisis yang paling umum untuk model campuran memiliki interpretasi EB.
EB memiliki banyak aplikasi dan berlaku untuk banyak model statistik, tetapi konteksnya selalu adalah bahwa Anda memiliki sejumlah besar (mungkin independen) kasus dan Anda mencoba untuk memperkirakan parameter tertentu (seperti rata-rata atau varians) dalam setiap kasus. Dalam inferensi Bayesian, Anda membuat kesimpulan posterior tentang parameter berdasarkan data yang diamati untuk setiap kasus dan distribusi sebelumnya untuk parameter itu. Dalam inferensi EB, distribusi sebelumnya untuk parameter diperkirakan dari seluruh kumpulan kasus data, setelah inferensi berlanjut seperti inferensi Bayesian. Oleh karena itu, ketika Anda memperkirakan parameter untuk kasus tertentu, Anda menggunakan data untuk kasus itu dan juga perkiraan distribusi sebelumnya, dan yang terakhir mewakili "informasi" atau "kekuatan"
Sekarang Anda dapat melihat mengapa EB memiliki "pinjaman" tetapi Bayes benar tidak. Di Bayes yang sebenarnya, distribusi sebelumnya sudah ada sehingga tidak perlu diemis atau dipinjam. Dalam EB, distribusi sebelumnya telah dibuat dari data yang diamati itu sendiri. Ketika kami membuat kesimpulan tentang kasus tertentu, kami menggunakan semua informasi yang diamati dari kasus itu dan sedikit informasi dari masing-masing kasus lainnya. Kami mengatakan itu hanya "dipinjam", karena informasi diberikan kembali ketika kami melanjutkan untuk membuat kesimpulan tentang kasus berikutnya.
Gagasan EB dan "peminjaman informasi" banyak digunakan dalam genomik statistik, ketika setiap "kasus" biasanya merupakan gen atau fitur genom (Smyth, 2004; Phipson et al, 2016).
Referensi
Efron, Bradley, dan Carl Morris. Paradoks Stein dalam statistik. Scientific American 236, no. 5 (1977): 119-127. http://statweb.stanford.edu/~ckirby/brad/other/Article1977.pdf
Smyth, GK (2004). Model linear dan metode Bayes empiris untuk menilai ekspresi diferensial dalam eksperimen microarray. Aplikasi Statistik dalam Genetika dan Biologi Molekuler Volume 3, Edisi 1, Pasal 3. http://www.statsci.org/smyth/pubs/ebayes.pdf
Phipson, B, Lee, S, Majewski, IJ, Alexander, WS, dan Smyth, GK (2016). Estimasi hiperparameter yang kuat melindungi terhadap gen yang hipervariabel dan meningkatkan kekuatan untuk mendeteksi ekspresi diferensial. Sejarah Statistik Terapan 10, 946-963. http://dx.doi.org/10.1214/16-AOAS920
sumber
Pertimbangkan masalah sederhana seperti memperkirakan cara beberapa kelompok. Jika model Anda memperlakukannya sebagai sama sekali tidak terkait maka satu-satunya informasi yang Anda miliki tentang masing-masing mean adalah informasi dalam kelompok itu. Jika model Anda memperlakukan sarana mereka sebagai agak terkait (seperti dalam beberapa model jenis efek campuran) maka perkiraan akan lebih tepat karena informasi dari kelompok lain menginformasikan (mengatur, menyusut ke arah rata-rata umum) perkiraan untuk kelompok tertentu. Itu contoh 'informasi pinjaman'.
Gagasan muncul dalam pekerjaan aktuaria terkait dengan kredibilitas (tidak harus dengan istilah 'pinjaman' tertentu meskipun meminjam dalam pengertian itu secara eksplisit dalam formula); ini berjalan jauh, setidaknya satu abad yang lalu, dengan prekursor yang jelas akan kembali ke pertengahan abad kesembilan belas. Sebagai contoh, lihat Longley-Cook, LH (1962) Pengantar teori kredibilitas PCAS, 49, 194-221.
Inilah Whitney, 1918 (Theory of Experience Rating, PCAS, 4, 274-292):
Sementara istilah meminjam tidak ada di sini gagasan menggunakan informasi tingkat grup untuk memberi tahu kami tentang bengkel ini jelas ada. [Gagasan tetap tidak berubah ketika "kekuatan pinjaman" dan "informasi pinjaman" mulai diterapkan pada situasi ini]
sumber
Akhirnya, pemodelan bertingkat bukan hanya efek campuran, meskipun mereka adalah yang paling umum. Model mana pun di mana parameter dipengaruhi tidak hanya oleh prior dan data, tetapi juga parameter tidak dikenal lainnya dapat disebut model multilevel. Tentu saja, ini adalah serangkaian model yang sangat fleksibel, tetapi dapat ditulis dari awal dan cocok dengan jumlah minimal pekerjaan menggunakan alat-alat seperti Stan, NIMBLE, JAGS, dll. Sejauh ini, saya tidak yakin saya akan mengatakan bertingkat pemodelan adalah "hype"; pada dasarnya, Anda dapat menulis model apa saja yang dapat direpresentasikan sebagai Grafik Acyclic yang Diarahkandan pas segera (dengan asumsi itu memiliki jangka waktu yang masuk akal, yaitu). Ini memberi jauh lebih banyak kekuatan dan potensi kreativitas daripada pilihan tradisional (yaitu, paket model regresi) namun tidak memerlukan satu untuk membangun seluruh paket R dari awal hanya agar sesuai dengan jenis model baru.
sumber
Saya berasumsi, karena Anda menandai pembelajaran mesin yang Anda minati dalam prediksi, bukan inferensi. (Saya yakin saya selaras dengan jawaban @Glen_b, tetapi hanya menerjemahkan ke konteks / kosakata ini)
Saya akan mengklaim dalam hal ini adalah kata kunci. Model linier yang diatur dengan variabel grup akan meminjam informasi: prediksi pada tingkat individu akan merupakan kombinasi dari rata-rata kelompok dan efek individu. Salah satu cara untuk memikirkan regularisasi l1 / l2 adalah bahwa ia menetapkan biaya koefisien per pengurangan dalam kesalahan total, karena variabel kelompok mempengaruhi lebih banyak sampel daripada variabel individu, akan ada tekanan untuk memperkirakan efek kelompok, meninggalkan penyimpangan yang lebih kecil dari efek kelompok ke masing-masing variabel individu.
Untuk poin individu dengan data yang cukup, efek individu akan 'kuat', bagi mereka yang memiliki sedikit data, efeknya akan lemah.
Saya pikir cara termudah untuk melihat ini adalah dengan mempertimbangkan regularisasi L1 dan 3 orang dari kelompok yang sama dengan efek yang sama. Belum diatur, masalahnya memiliki jumlah solusi yang tak terbatas, sedangkan regularisasi memberikan solusi yang unik.
Menetapkan semua efek pada koefisien kelompok memiliki norma l1 terendah, karena kita hanya perlu 1 nilai untuk mencakup 3 orang. Sebaliknya, menetapkan semua efek ke koefisien individu memiliki yang terburuk, yaitu 3 kali norma l1 dari menetapkan efek ke koefisien grup.
Perhatikan bahwa kita dapat memiliki hierarki sebanyak yang kita inginkan, dan interaksi terpengaruh sama: regularisasi akan mendorong efek ke variabel utama, daripada interaksi yang lebih jarang.
Blog tjmahr.com/plotting-partial-pooling-in-mixed-effects-models . - Ditautkan oleh @IsabellaGhement memberikan penawaran untuk kekuatan meminjam
"Efek ini kadang-kadang disebut penyusutan, karena nilai penyusutan yang lebih ekstrem ditarik ke arah nilai yang lebih masuk akal dan lebih rata-rata. Dalam buku lme4 , Douglas Bates memberikan alternatif untuk penyusutan [nama]"
sumber
Sumber lain yang ingin saya rekomendasikan pada topik ini yang saya temukan sangat instruktif adalah Pengantar David Robinson untuk Empiris Bayes .
Contohnya adalah apakah seorang pemain bisbol akan berhasil memukul bola berikutnya yang dilemparkan kepadanya. Gagasan utamanya adalah bahwa jika seorang pemain telah ada selama bertahun-tahun, seseorang memiliki gambaran yang cukup jelas tentang seberapa cakapnya dia dan khususnya, seseorang dapat menggunakan rata-rata batting yang diamati sebagai perkiraan yang cukup bagus dari probabilitas keberhasilan di lapangan berikutnya.
Sebaliknya, seorang pemain yang baru saja mulai bermain di liga belum mengungkapkan banyak bakat yang sebenarnya. Jadi sepertinya ini adalah pilihan bijak untuk menyesuaikan estimasi probabilitas keberhasilannya terhadap beberapa rata-rata keseluruhan jika ia telah sangat berhasil atau tidak berhasil dalam beberapa pertandingan pertamanya, karena kemungkinan itu, setidaknya sampai batas tertentu, karena keberuntungan baik atau buruk .
Sebagai poin minor, istilah "meminjam" tentu saja tampaknya tidak digunakan dalam arti bahwa sesuatu yang telah dipinjam perlu dikembalikan pada titik tertentu ;-).
sumber