Saya baru-baru ini mulai menggunakan Pareto smoothed pentingnya pengambilan sampel validasi silang keluar-keluar-keluar (PSIS-LOO), yang dijelaskan dalam makalah ini:
- Vehtari, A., & Gelman, A. (2015). Pareto memuluskan sampel kepentingan. pracetak arXiv ( tautan ).
- Vehtari, A., Gelman, A., & Gabry, J. (2016). Evaluasi model Bayesian praktis menggunakan validasi silang tinggalkan-keluar-keluar dan WAIC. pracetak arXiv ( tautan )
Ini merupakan pendekatan yang sangat menarik untuk evaluasi model out-of-sample karena memungkinkan untuk melakukan LOO-CV dengan menjalankan MCMC tunggal, dan ini diduga lebih baik daripada kriteria informasi yang ada seperti WAIC.
Sayangnya, saya menemukan bahwa dalam penerapan metode ini untuk masalah saya, untuk sebagian besar model yang menarik saya menemukan bahwa sebagian besar dari . Tidak mengherankan, beberapa kemungkinan log LOO yang dilaporkan jelas tidak masuk akal (dibandingkan dengan dataset lain). Sebagai pemeriksaan ganda, saya melakukan validasi silang 10 kali lipat tradisional (dan memakan waktu), menemukan bahwa memang dalam kasus di atas PSIS-LOO memberikan hasil yang sangat salah (di sisi atas, hasilnya sangat sesuai dengan 10 -lipat CV untuk model di mana semua ). Sebagai catatan, saya menggunakan implementasi MATLAB dari PSIS-LOO oleh Aki Vehtari.
Mungkin saya hanya kurang beruntung karena masalah saya saat ini dan pertama di mana saya menerapkan metode ini "sulit" untuk PSIS-LOO, tetapi saya menduga bahwa kasus ini mungkin relatif umum. Untuk kasus-kasus seperti milik saya, makalah Vehtary, Gelman & Gabry hanya mengatakan:
Bahkan jika estimasi PSIS memiliki varian terbatas, ketika , pengguna harus mempertimbangkan pengambilan sampel langsung dari untuk bermasalah , gunakan -fold cross- validasi, atau gunakan model yang lebih kuat.
Ini adalah solusi yang jelas tetapi tidak benar-benar ideal karena mereka semua memakan waktu atau membutuhkan tambahan biola (Saya menghargai bahwa MCMC dan evaluasi model semua tentang mengutak-atik, tetapi semakin sedikit semakin baik).
Adakah metode umum yang dapat kita terapkan sebelumnya untuk mencoba dan mencegah kegagalan PSIS-LOO? Saya punya beberapa ide sementara, tapi saya ingin tahu apakah sudah ada solusi empiris yang telah diadopsi orang.