Validasi silang vs Bayes empiris untuk memperkirakan hiperparameter

20

Diberi model hierarkis , saya ingin proses dua tahap agar sesuai dengan model. Pertama, perbaiki beberapa hiperparameter , dan kemudian lakukan inferensi Bayesian pada seluruh parameter \ phi . Untuk memperbaiki hyperparameters saya mempertimbangkan dua opsi.p(x|ϕ,θ)θϕ

  1. Gunakan Empirical Bayes (EB) dan maksimalkan kemungkinan marginal p(all data|θ) (mengintegrasikan seluruh model yang berisi parameter dimensi tinggi).
  2. Gunakan teknik Cross Validation (CV) seperti k -fold cross validation untuk memilih θ yang memaksimalkan kemungkinan p(test data|training data,θ) .

Keuntungan dari EB adalah bahwa saya dapat menggunakan semua data sekaligus, sedangkan untuk CV saya perlu (berpotensi) menghitung kemungkinan model beberapa kali dan mencari θ . Kinerja EB dan CV sebanding dalam banyak kasus (*), dan seringkali EB lebih cepat untuk diperkirakan.

Pertanyaan: Apakah ada landasan teori yang menghubungkan keduanya (katakanlah, EB dan CV sama dalam batas data besar)? Atau mengaitkan EB dengan kriteria generalisasi seperti risiko empiris? Bisakah seseorang menunjuk ke bahan referensi yang bagus?


(*) Sebagai ilustrasi, berikut adalah gambar dari Machine Learning Murphy , Bagian 7.6.4, di mana ia mengatakan bahwa untuk regresi ridge kedua prosedur menghasilkan hasil yang sangat mirip:

murphy - bayes empiris vs CV

Murphy juga mengatakan bahwa keunggulan praktis prinsip dari Bayes empiris (ia menyebutnya "prosedur bukti") dibandingkan CV adalah ketika terdiri dari banyak parameter-hiper (misalnya penalti terpisah untuk setiap fitur, seperti dalam penentuan relevansi otomatis atau ARD). Tidak mungkin menggunakan CV sama sekali.θ

Memming
sumber
Bisakah Anda menjelaskan secara lebih rinci apa yang Anda lakukan untuk metode validasi silang? Apakah Anda memperbaiki dan kemudian menggunakan data pelatihan untuk memperkirakan parameter lain sebelum memvalidasi? θ
Neil G
@NeilG memaksimalkan jumlah kemungkinan data prediktif log marginal pada set validasi silang (k diintegrasikan).
Memming
1
Jika diintegrasikan dua kali, lalu apa perbedaan antara CV dan EB? k
Neil G
2
Pertanyaan bagus Saya mengambil kebebasan untuk menambahkan angka dari buku teks Murphy ke pertanyaan Anda untuk mengilustrasikan poin Anda tentang dua prosedur yang seringkali dapat dibandingkan. Saya harap Anda tidak keberatan dengan penambahan ini.
Amoeba berkata Reinstate Monica

Jawaban:

16

Saya ragu akan ada hubungan teoretis yang mengatakan bahwa CV dan maksimalisasi bukti sama asymptotically dengan bukti yang memberi tahu kita probabilitas data mengingat asumsi model . Jadi jika modelnya salah-ditentukan, maka bukti mungkin tidak dapat diandalkan. Validasi silang di sisi lain memberikan perkiraan probabilitas data, apakah asumsi pemodelan sudah benar atau tidak. Ini berarti bahwa bukti mungkin menjadi panduan yang lebih baik jika asumsi pemodelan benar menggunakan lebih sedikit data, tetapi validasi silang akan kuat terhadap spesifikasi salah model. CV asimtotik tidak bias, tetapi saya akan berasumsi bahwa bukti tidak kecuali asumsi model kebetulan benar.

Ini pada dasarnya adalah intuisi / pengalaman saya; Saya juga tertarik mendengar tentang penelitian ini.

Perhatikan bahwa untuk banyak model (misalnya regresi ridge, proses Gaussian, regresi ridge kernel / LS-SVM dll), validasi silang keluar-keluar-sekali dapat dilakukan setidaknya seefisien estimasi estimasi bukti, sehingga tidak perlu komputasi keuntungan di sana.

Tambahan: Baik estimasi kinerja marginal likelihood dan cross-validation dievaluasi atas sampel data yang terbatas, dan karenanya selalu ada kemungkinan over-fitting jika model disetel dengan mengoptimalkan salah satu kriteria. Untuk sampel kecil, perbedaan varian kedua kriteria dapat memutuskan mana yang terbaik. Lihat kertas saya

Gavin C. Cawley, Nicola LC Talbot, "Pada Over-fitting dalam Seleksi Model dan Seleksi Selanjutnya Bias dalam Evaluasi Kinerja", Jurnal Penelitian Pembelajaran Mesin, 11 (Jul): 2079−2107, 2010. ( pdf )

Dikran Marsupial
sumber
Mengapa Anda mengatakan bahwa CV kuat terhadap model yang tidak ditentukan? Dalam kasusnya, tidak ada perlindungan seperti itu karena validasi silang mencari di ruang yang sama dengan EB yang menghitung kemungkinan. Jika asumsi pemodelannya salah, maka validasi silang tidak akan menyelamatkannya.
Neil G
1
CV tangguh terhadap kesalahan spesifikasi dalam arti masih memberikan indikator kinerja generalisasi yang bermanfaat. Kemungkinan marjinal mungkin tidak tergantung pada sebelumnya pada (misalnya), bahkan setelah Anda memarjinalkan lebih dari . Jadi, jika sebelumnya pada menyesatkan, kemungkinan marginal mungkin menjadi panduan menyesatkan untuk kinerja generalisasi. Lihat monografi Grace Wahba pada "model spline untuk data pengamatan", bagian 4.8 (tidak banyak, tapi tidak banyak tentang topik ini AFAIK). ϕϕθ
Dikran Marsupial
ps Saya telah melakukan analisis menghindari overfitting dalam jaringan saraf dengan regularisasi Bayesian di mana parameter regularisasi disetel melalui maksimalisasi marginal likelihood. Ada situasi di mana ini bekerja sangat buruk (lebih buruk daripada tidak memiliki regularisasi sama sekali). Ini tampaknya menjadi masalah mis-spesifikasi model.
Dikran Marsupial
Dia bisa mendapatkan "indikator kinerja generalisasi" yang sama dengan memeriksa log-probabilitas total data mengingat estimasi distribusi dikembalikan oleh EB (yang akan sama dengan entropi distribusi itu). Tidak ada cara untuk mengalahkannya dalam hal ini karena ini adalah solusi analitis untuk masalah ini. Saya tidak melihat mengapa validasi silang masuk akal ketika Anda dapat menghitung kemungkinan untuk EB.
Neil G
2
@probabilityislogic, saya tidak yakin apa yang Anda hadapi (masalah pasti ada di ujung saya!; o). Saya dapat memberi tahu Anda dari pengalaman praktis bahwa masalahnya sangat nyata. Saya telah mengerjakan masalah dalam pemilihan model selama beberapa tahun, dan saya telah menemukan banyak masalah di mana memaksimalkan kemungkinan marginal ternyata menjadi ide yang sangat buruk. Validasi silang berkinerja baik untuk sebagian besar dataset, tetapi bila kinerjanya buruk, jarang berkinerja serempak seperti yang kadang-kadang dilakukan maksimalisasi bukti.
Dikran Marsupial
-1

Jika Anda tidak memiliki parameter lain , maka EB identik dengan CV kecuali Anda tidak harus mencari. Anda mengatakan bahwa Anda mengintegrasikan di CV dan EB. Dalam hal itu, mereka identik.kk

Neil G
sumber