Mencegah kegagalan pengambilan sampel Pareto smoothed importance (PSIS-LOO)

Saya baru-baru ini mulai menggunakan Pareto smoothed pentingnya pengambilan sampel validasi silang keluar-keluar-keluar (PSIS-LOO), yang dijelaskan dalam makalah ini:

Vehtari, A., & Gelman, A. (2015). Pareto memuluskan sampel kepentingan. pracetak arXiv ( tautan ).
Vehtari, A., Gelman, A., & Gabry, J. (2016). Evaluasi model Bayesian praktis menggunakan validasi silang tinggalkan-keluar-keluar dan WAIC. pracetak arXiv ( tautan )

Ini merupakan pendekatan yang sangat menarik untuk evaluasi model out-of-sample karena memungkinkan untuk melakukan LOO-CV dengan menjalankan MCMC tunggal, dan ini diduga lebih baik daripada kriteria informasi yang ada seperti WAIC.

$\hat{k}_i$ $\hat{k}_i \gtrsim 0.7$

Sayangnya, saya menemukan bahwa dalam penerapan metode ini untuk masalah saya, untuk sebagian besar model yang menarik saya menemukan bahwa sebagian besar dari $\hat{k}_i \gg 0.7$ . Tidak mengherankan, beberapa kemungkinan log LOO yang dilaporkan jelas tidak masuk akal (dibandingkan dengan dataset lain). Sebagai pemeriksaan ganda, saya melakukan validasi silang 10 kali lipat tradisional (dan memakan waktu), menemukan bahwa memang dalam kasus di atas PSIS-LOO memberikan hasil yang sangat salah (di sisi atas, hasilnya sangat sesuai dengan 10 -lipat CV untuk model di mana semua $\hat{k}_i \ll 0.7$ ). Sebagai catatan, saya menggunakan implementasi MATLAB dari PSIS-LOO oleh Aki Vehtari.

Mungkin saya hanya kurang beruntung karena masalah saya saat ini dan pertama di mana saya menerapkan metode ini "sulit" untuk PSIS-LOO, tetapi saya menduga bahwa kasus ini mungkin relatif umum. Untuk kasus-kasus seperti milik saya, makalah Vehtary, Gelman & Gabry hanya mengatakan:

Bahkan jika estimasi PSIS memiliki varian terbatas, ketika , pengguna harus mempertimbangkan pengambilan sampel langsung dari untuk bermasalah , gunakan -fold cross- validasi, atau gunakan model yang lebih kuat. $\hat{k} > 0.7$ $p(\theta^s |y_{−i})$ $i$ $k$

Ini adalah solusi yang jelas tetapi tidak benar-benar ideal karena mereka semua memakan waktu atau membutuhkan tambahan biola (Saya menghargai bahwa MCMC dan evaluasi model semua tentang mengutak-atik, tetapi semakin sedikit semakin baik).

Adakah metode umum yang dapat kita terapkan sebelumnya untuk mencoba dan mencegah kegagalan PSIS-LOO? Saya punya beberapa ide sementara, tapi saya ingin tahu apakah sudah ada solusi empiris yang telah diadopsi orang.

machine-learning cross-validation mcmc pareto-distribution importance-sampling Lacerbi
sumber

Jawaban:

Sebagai catatan, saya memposting pertanyaan serupa ke milis pengguna Stan , yang dapat Anda temukan di sini . Saya dijawab oleh salah satu penulis kertas PSIS-LOO asli dan oleh kontributor Stan lainnya. Berikut ini adalah ringkasan pribadi saya.

Jawaban singkatnya adalah tidak ada metode umum yang diketahui untuk mencegah kegagalan PSIS-LOO. Jika PSIS-LOO gagal, biasanya karena model memiliki masalah , dan memperbaikinya harus diserahkan kepada pengguna.

Secara khusus, alasan mengapa PSIS-LOO mungkin gagal biasanya karena satu atau lebih distribusi LOO digeser dan / atau lebih luas dari posterior penuh, kemungkinan karena pengamatan yang berpengaruh, dan distribusi sampel yang penting runtuh menjadi satu atau beberapa poin.

Saya berpikir bahwa Anda dapat mencoba untuk mengadopsi beberapa bentuk tempering posterior paralel untuk menyelesaikan masalah ini. Idenya tidak selalu salah, tetapi ditunjukkan kepada saya bahwa:

tempering posterior buku teks masih akan memerlukan banyak kasus per kasus untuk menemukan tingkat suhu yang tepat, karena tidak ada cara yang jelas atau diketahui untuk melakukan itu (kebetulan, karena alasan ini Stan tidak termasuk tempering paralel);
jika Anda menggunakan lebih dari dua level suhu (karena mungkin diperlukan untuk memiliki pendekatan yang kuat), biaya komputasi akhir mendekati bahwa validasi silang K-fold, atau menjalankan MCMC pada distribusi LOO yang bermasalah.

Singkatnya, jika PSIS-LOO gagal, tampaknya sulit untuk mendapatkan metode yang sama kuat dan umum dengan tambalan sederhana lainnya; itu sebabnya Vehtari, Gelman & Gabry menyarankan metode-metode tersebut sesuai dengan kutipan yang saya posting di pertanyaan awal saya.

Lacerbi
sumber