Diberi model hierarkis , saya ingin proses dua tahap agar sesuai dengan model. Pertama, perbaiki beberapa hiperparameter , dan kemudian lakukan inferensi Bayesian pada seluruh parameter \ phi . Untuk memperbaiki hyperparameters saya mempertimbangkan dua opsi.
- Gunakan Empirical Bayes (EB) dan maksimalkan kemungkinan marginal (mengintegrasikan seluruh model yang berisi parameter dimensi tinggi).
- Gunakan teknik Cross Validation (CV) seperti -fold cross validation untuk memilih yang memaksimalkan kemungkinan .
Keuntungan dari EB adalah bahwa saya dapat menggunakan semua data sekaligus, sedangkan untuk CV saya perlu (berpotensi) menghitung kemungkinan model beberapa kali dan mencari . Kinerja EB dan CV sebanding dalam banyak kasus (*), dan seringkali EB lebih cepat untuk diperkirakan.
Pertanyaan: Apakah ada landasan teori yang menghubungkan keduanya (katakanlah, EB dan CV sama dalam batas data besar)? Atau mengaitkan EB dengan kriteria generalisasi seperti risiko empiris? Bisakah seseorang menunjuk ke bahan referensi yang bagus?
(*) Sebagai ilustrasi, berikut adalah gambar dari Machine Learning Murphy , Bagian 7.6.4, di mana ia mengatakan bahwa untuk regresi ridge kedua prosedur menghasilkan hasil yang sangat mirip:
Murphy juga mengatakan bahwa keunggulan praktis prinsip dari Bayes empiris (ia menyebutnya "prosedur bukti") dibandingkan CV adalah ketika terdiri dari banyak parameter-hiper (misalnya penalti terpisah untuk setiap fitur, seperti dalam penentuan relevansi otomatis atau ARD). Tidak mungkin menggunakan CV sama sekali.
Jawaban:
Saya ragu akan ada hubungan teoretis yang mengatakan bahwa CV dan maksimalisasi bukti sama asymptotically dengan bukti yang memberi tahu kita probabilitas data mengingat asumsi model . Jadi jika modelnya salah-ditentukan, maka bukti mungkin tidak dapat diandalkan. Validasi silang di sisi lain memberikan perkiraan probabilitas data, apakah asumsi pemodelan sudah benar atau tidak. Ini berarti bahwa bukti mungkin menjadi panduan yang lebih baik jika asumsi pemodelan benar menggunakan lebih sedikit data, tetapi validasi silang akan kuat terhadap spesifikasi salah model. CV asimtotik tidak bias, tetapi saya akan berasumsi bahwa bukti tidak kecuali asumsi model kebetulan benar.
Ini pada dasarnya adalah intuisi / pengalaman saya; Saya juga tertarik mendengar tentang penelitian ini.
Perhatikan bahwa untuk banyak model (misalnya regresi ridge, proses Gaussian, regresi ridge kernel / LS-SVM dll), validasi silang keluar-keluar-sekali dapat dilakukan setidaknya seefisien estimasi estimasi bukti, sehingga tidak perlu komputasi keuntungan di sana.
Tambahan: Baik estimasi kinerja marginal likelihood dan cross-validation dievaluasi atas sampel data yang terbatas, dan karenanya selalu ada kemungkinan over-fitting jika model disetel dengan mengoptimalkan salah satu kriteria. Untuk sampel kecil, perbedaan varian kedua kriteria dapat memutuskan mana yang terbaik. Lihat kertas saya
Gavin C. Cawley, Nicola LC Talbot, "Pada Over-fitting dalam Seleksi Model dan Seleksi Selanjutnya Bias dalam Evaluasi Kinerja", Jurnal Penelitian Pembelajaran Mesin, 11 (Jul): 2079−2107, 2010. ( pdf )
sumber
Jika Anda tidak memiliki parameter lain , maka EB identik dengan CV kecuali Anda tidak harus mencari. Anda mengatakan bahwa Anda mengintegrasikan di CV dan EB. Dalam hal itu, mereka identik.k k
sumber