Saya telah mencurahkan banyak waktu untuk pengembangan metode dan perangkat lunak untuk memvalidasi model prediktif dalam domain statistik frequentist tradisional. Dalam menerapkan lebih banyak gagasan Bayes ke dalam praktik dan pengajaran, saya melihat beberapa perbedaan utama yang harus dianut. Pertama, pemodelan prediktif Bayesian meminta analis untuk berpikir keras tentang distribusi sebelumnya yang dapat disesuaikan dengan fitur kandidat, dan prior ini akan menarik model ke arah mereka (yaitu, mencapai penyusutan / penalti / regularisasi dengan jumlah hukuman yang berbeda untuk fitur prediksi berbeda ). Kedua, cara Bayesian "asli" tidak menghasilkan model tunggal tetapi satu mendapatkan seluruh distribusi posterior untuk prediksi.
Dengan mempertimbangkan fitur Bayesian itu, apa yang dimaksud dengan overfitting? Haruskah kita menilainya? Jika ya, bagaimana caranya? Bagaimana kita tahu kapan model Bayesian dapat diandalkan untuk penggunaan lapangan? Atau apakah itu titik diperdebatkan karena posterior akan membawa semua ketidakpastian pemberian hati-hati ketika kita menggunakan model yang kita kembangkan untuk prediksi?
Bagaimana pemikiran akan berubah jika kita memaksa model Bayesian untuk didistilasi ke satu nomor, misalnya, risiko rata-rata / mode / median posterior?
Saya melihat beberapa pemikiran terkait di sini . Diskusi paralel dapat ditemukan di sini .
Pertanyaan tindak lanjut :: Jika kita sepenuhnya Bayesian dan meluangkan waktu untuk memikirkan prior sebelum melihat data, dan kami mencocokkan suatu model di mana kemungkinan data ditentukan secara tepat, apakah kami terdorong untuk puas dengan model kami sehubungan dengan overfitting ? Atau apakah kita perlu melakukan apa yang kita lakukan di dunia sering di mana subjek yang dipilih secara acak dapat diprediksi dengan rata-rata, tetapi jika kita memilih subjek yang memiliki prediksi sangat rendah atau yang memiliki nilai prediksi sangat tinggi akan ada regresi maksudnya?
Jawaban:
Saya mungkin mulai dengan mengatakan bahwa model Bayesian tidak dapat secara sistematis melengkapi (atau underfit) data yang diambil dari distribusi prediktif sebelumnya, yang merupakan dasar untuk prosedur untuk memvalidasi bahwa perangkat lunak Bayesian bekerja dengan benar sebelum diterapkan pada data yang dikumpulkan dari dunia.
Tapi itu bisa menutupi satu set data tunggal yang diambil dari distribusi prediktif sebelumnya atau satu set data tunggal yang dikumpulkan dari dunia dalam arti bahwa berbagai ukuran prediksi yang diterapkan pada data yang Anda gunakan terlihat lebih baik daripada ukuran-ukuran prediksi yang sama yang diterapkan pada data masa depan yang dihasilkan oleh proses yang sama. Bab 6 dari buku Bayesian karya Richard McElreath dikhususkan untuk overfitting.
Tingkat keparahan dan frekuensi overfitting dapat dikurangi oleh prior yang baik, terutama yang informatif tentang skala efek. Dengan meletakkan probabilitas sebelumnya menghilang pada nilai-nilai besar yang tidak masuk akal, Anda mencegah distribusi posterior menjadi terlalu bersemangat oleh beberapa aspek istimewa dari data yang Anda kondisikan yang mungkin menyarankan efek besar yang tidak masuk akal.
Cara terbaik untuk mendeteksi overfitting melibatkan validasi silang keluar-keluar-satu, yang dapat diperkirakan dari distribusi posterior yang tidak benar-benar meninggalkan pengamatan apa pun dari perangkat pengaturan. Ada asumsi bahwa tidak ada individu "pengamatan" [*] yang Anda kondisikan memiliki efek yang terlalu besar pada distribusi posterior, tetapi asumsi itu dapat diperiksa dengan mengevaluasi ukuran estimasi parameter bentuk dalam distribusi Pareto Generalized yang sesuai dengan bobot sampel yang penting (yang berasal dari log-kemungkinan pengamatan yang dievaluasi pada setiap undian dari distribusi posterior). Jika asumsi ini dipenuhi, maka Anda dapat memperoleh langkah-langkah prediktif untuk setiap pengamatan yang seolah-olah pengamatan tersebut telah dihilangkan, posterior telah diambil dari kondisional pada pengamatan yang tersisa, dan distribusi prediksi posterior telah dibangun untuk pengamatan yang dihilangkan. Jika prediksi pengamatan kosong Anda menderita, maka model Anda terlalu cocok untuk memulai. Ide-ide ini diimplementasikan dalam paket toilet untuk R, yang mencakup kutipan seperti di sana - sini .
Sejauh penyulingan ke nomor tunggal, saya suka menghitung proporsi pengamatan yang berada dalam interval prediksi 50%. Sejauh proporsi ini lebih besar dari satu setengah, modelnya terlalu pas, meskipun Anda membutuhkan lebih dari beberapa pengamatan untuk memotong kebisingan dalam fungsi indikator inklusi. Untuk membandingkan model yang berbeda (yang mungkin melebihi batas), kepadatan prediksi log yang diharapkan (yang dihitung oleh
loo
fungsi di toiletpaket) adalah ukuran yang baik (diusulkan oleh IJ Good) karena memperhitungkan kemungkinan bahwa model yang lebih fleksibel mungkin cocok dengan data yang tersedia lebih baik daripada model yang kurang fleksibel tetapi diharapkan untuk memprediksi data masa depan yang lebih buruk. Tetapi ide-ide ini dapat diterapkan pada ekspektasi ukuran prediksi (yang mungkin lebih intuitif bagi para praktisi); lihatE_loo
fungsi dalam paket toilet .[*] Anda harus memilih apa yang merupakan observasi dalam model hierarkis. Misalnya, apakah Anda tertarik untuk memprediksi pasien baru atau titik waktu baru untuk pasien yang sudah ada? Anda dapat melakukannya dengan cara apa pun, tetapi yang pertama mengharuskan Anda (kembali) menulis fungsi kemungkinan untuk mengintegrasikan parameter khusus pasien.
sumber
Overfitting berarti model bekerja dengan baik pada set pelatihan tetapi berkinerja buruk pada set tes. IMHO, ini berasal dari dua sumber: data dan model yang kami gunakan (atau subjektivitas kami).
Akibatnya, jika kita sering datang maka sumber overfitting berasal dari MLE. Jika kita adalah Bayesian maka ini berasal dari pilihan (subjektif) distribusi sebelumnya (dan tentu saja pilihan kemungkinan)). Jadi, bahkan jika Anda menggunakan distribusi posterior / rata-rata / median, Anda sudah overfitted dari awal dan overfitting ini dibawa bersama. Pilihan distribusi yang tepat sebelumnya dan kemungkinan akan membantu tetapi mereka masih model, Anda tidak pernah bisa menghindari overfitting sepenuhnya.
sumber