Bayesian berpikir tentang overfitting

20

Saya telah mencurahkan banyak waktu untuk pengembangan metode dan perangkat lunak untuk memvalidasi model prediktif dalam domain statistik frequentist tradisional. Dalam menerapkan lebih banyak gagasan Bayes ke dalam praktik dan pengajaran, saya melihat beberapa perbedaan utama yang harus dianut. Pertama, pemodelan prediktif Bayesian meminta analis untuk berpikir keras tentang distribusi sebelumnya yang dapat disesuaikan dengan fitur kandidat, dan prior ini akan menarik model ke arah mereka (yaitu, mencapai penyusutan / penalti / regularisasi dengan jumlah hukuman yang berbeda untuk fitur prediksi berbeda ). Kedua, cara Bayesian "asli" tidak menghasilkan model tunggal tetapi satu mendapatkan seluruh distribusi posterior untuk prediksi.

Dengan mempertimbangkan fitur Bayesian itu, apa yang dimaksud dengan overfitting? Haruskah kita menilainya? Jika ya, bagaimana caranya? Bagaimana kita tahu kapan model Bayesian dapat diandalkan untuk penggunaan lapangan? Atau apakah itu titik diperdebatkan karena posterior akan membawa semua ketidakpastian pemberian hati-hati ketika kita menggunakan model yang kita kembangkan untuk prediksi?

Bagaimana pemikiran akan berubah jika kita memaksa model Bayesian untuk didistilasi ke satu nomor, misalnya, risiko rata-rata / mode / median posterior?

Saya melihat beberapa pemikiran terkait di sini . Diskusi paralel dapat ditemukan di sini .

Pertanyaan tindak lanjut :: Jika kita sepenuhnya Bayesian dan meluangkan waktu untuk memikirkan prior sebelum melihat data, dan kami mencocokkan suatu model di mana kemungkinan data ditentukan secara tepat, apakah kami terdorong untuk puas dengan model kami sehubungan dengan overfitting ? Atau apakah kita perlu melakukan apa yang kita lakukan di dunia sering di mana subjek yang dipilih secara acak dapat diprediksi dengan rata-rata, tetapi jika kita memilih subjek yang memiliki prediksi sangat rendah atau yang memiliki nilai prediksi sangat tinggi akan ada regresi maksudnya?

Frank Harrell
sumber
1
Lihat mdpi.com/1099-4300/19/10/555/htm 5.1, 5.2
Tim
1
Andrew Gelman memiliki artikel blog yang sangat relevan di andrewgelman.com/2017/04/12/bayesian-posteriors-calibrated
Frank Harrell

Jawaban:

6

Saya mungkin mulai dengan mengatakan bahwa model Bayesian tidak dapat secara sistematis melengkapi (atau underfit) data yang diambil dari distribusi prediktif sebelumnya, yang merupakan dasar untuk prosedur untuk memvalidasi bahwa perangkat lunak Bayesian bekerja dengan benar sebelum diterapkan pada data yang dikumpulkan dari dunia.

Tapi itu bisa menutupi satu set data tunggal yang diambil dari distribusi prediktif sebelumnya atau satu set data tunggal yang dikumpulkan dari dunia dalam arti bahwa berbagai ukuran prediksi yang diterapkan pada data yang Anda gunakan terlihat lebih baik daripada ukuran-ukuran prediksi yang sama yang diterapkan pada data masa depan yang dihasilkan oleh proses yang sama. Bab 6 dari buku Bayesian karya Richard McElreath dikhususkan untuk overfitting.

Tingkat keparahan dan frekuensi overfitting dapat dikurangi oleh prior yang baik, terutama yang informatif tentang skala efek. Dengan meletakkan probabilitas sebelumnya menghilang pada nilai-nilai besar yang tidak masuk akal, Anda mencegah distribusi posterior menjadi terlalu bersemangat oleh beberapa aspek istimewa dari data yang Anda kondisikan yang mungkin menyarankan efek besar yang tidak masuk akal.

Cara terbaik untuk mendeteksi overfitting melibatkan validasi silang keluar-keluar-satu, yang dapat diperkirakan dari distribusi posterior yang tidak benar-benar meninggalkan pengamatan apa pun dari perangkat pengaturan. Ada asumsi bahwa tidak ada individu "pengamatan" [*] yang Anda kondisikan memiliki efek yang terlalu besar pada distribusi posterior, tetapi asumsi itu dapat diperiksa dengan mengevaluasi ukuran estimasi parameter bentuk dalam distribusi Pareto Generalized yang sesuai dengan bobot sampel yang penting (yang berasal dari log-kemungkinan pengamatan yang dievaluasi pada setiap undian dari distribusi posterior). Jika asumsi ini dipenuhi, maka Anda dapat memperoleh langkah-langkah prediktif untuk setiap pengamatan yang seolah-olah pengamatan tersebut telah dihilangkan, posterior telah diambil dari kondisional pada pengamatan yang tersisa, dan distribusi prediksi posterior telah dibangun untuk pengamatan yang dihilangkan. Jika prediksi pengamatan kosong Anda menderita, maka model Anda terlalu cocok untuk memulai. Ide-ide ini diimplementasikan dalam paket toilet untuk R, yang mencakup kutipan seperti di sana - sini .

Sejauh penyulingan ke nomor tunggal, saya suka menghitung proporsi pengamatan yang berada dalam interval prediksi 50%. Sejauh proporsi ini lebih besar dari satu setengah, modelnya terlalu pas, meskipun Anda membutuhkan lebih dari beberapa pengamatan untuk memotong kebisingan dalam fungsi indikator inklusi. Untuk membandingkan model yang berbeda (yang mungkin melebihi batas), kepadatan prediksi log yang diharapkan (yang dihitung oleh loofungsi di toiletpaket) adalah ukuran yang baik (diusulkan oleh IJ Good) karena memperhitungkan kemungkinan bahwa model yang lebih fleksibel mungkin cocok dengan data yang tersedia lebih baik daripada model yang kurang fleksibel tetapi diharapkan untuk memprediksi data masa depan yang lebih buruk. Tetapi ide-ide ini dapat diterapkan pada ekspektasi ukuran prediksi (yang mungkin lebih intuitif bagi para praktisi); lihat E_loofungsi dalam paket toilet .

[*] Anda harus memilih apa yang merupakan observasi dalam model hierarkis. Misalnya, apakah Anda tertarik untuk memprediksi pasien baru atau titik waktu baru untuk pasien yang sudah ada? Anda dapat melakukannya dengan cara apa pun, tetapi yang pertama mengharuskan Anda (kembali) menulis fungsi kemungkinan untuk mengintegrasikan parameter khusus pasien.

Ben Goodrich
sumber
2
Ben yang sangat informatif. Terima kasih banyak telah meluangkan waktu untuk merespons secara detail. Untuk menjawab pertanyaan Anda tentang ruang lingkup, saya merujuk ke pasien baru. Saya ditinggalkan dengan pertanyaan filosofis umum yang telah saya tambahkan di akhir pertanyaan awal.
Frank Harrell
2
Saya cenderung menganggap cek seperti ini sebagai aspek yang mencerminkan keyakinan kami sebelumnya bahwa kami tidak atau tidak dapat membangun distribusi sebelumnya yang kami gunakan. Misalnya, pada prinsipnya, Anda harus menentukan gabungan PDF sebelum semua parameter, tetapi hampir selalu ada banyak asumsi bahwa ini tidak tergantung pada itu, apriori , bukan karena Anda benar-benar percaya mereka independen tetapi hanya karena menentukan struktur ketergantungan multivariat sangat sulit. Fungsi multivarian seperti prediksi dapat membantu memberi tahu Anda setelah fakta, apakah input masuk akal atau tidak.
Ben Goodrich
Itu masuk akal dan sangat berwawasan luas. Saya masih memiliki sedikit keraguan tentang penilaian akurasi prediksi untuk mata pelajaran "ekstrim", yaitu mereka yang memiliki nilai prediksi yang sangat rendah atau sangat tinggi. [Dan untuk Bayes, yang memperkirakan nilai. Apakah itu subjek dengan distribusi posterior bergeser atau subjek dengan posterior rendah / tinggi?]
Frank Harrell
1
Pikiran lain tentang ini: Tampaknya dalam banyak situasi, praktisi memiliki keyakinan yang cukup koheren dan non-kontroversial tentang penyebut Aturan Bayes. Sebagai contoh, jika seseorang menderita kanker ini atau itu, apa distribusi waktu bertahan hidup mereka tanpa mengkondisikan hal lain? Tetapi lebih sulit dan lebih kontroversial untuk menentukan pembilang dari Aturan Bayes sedemikian rupa sehingga jika Anda mengintegrasikan semua parameter, Anda memiliki apa yang Anda yakini sebagai penyebutnya. Pemeriksaan prediktif (baik sebelum dan belakang) adalah semacam cara untuk menyelaraskan pembilang dengan penyebut Aturan Bayes.
Ben Goodrich
1

Overfitting berarti model bekerja dengan baik pada set pelatihan tetapi berkinerja buruk pada set tes. IMHO, ini berasal dari dua sumber: data dan model yang kami gunakan (atau subjektivitas kami).

k

Akibatnya, jika kita sering datang maka sumber overfitting berasal dari MLE. Jika kita adalah Bayesian maka ini berasal dari pilihan (subjektif) distribusi sebelumnya (dan tentu saja pilihan kemungkinan)). Jadi, bahkan jika Anda menggunakan distribusi posterior / rata-rata / median, Anda sudah overfitted dari awal dan overfitting ini dibawa bersama. Pilihan distribusi yang tepat sebelumnya dan kemungkinan akan membantu tetapi mereka masih model, Anda tidak pernah bisa menghindari overfitting sepenuhnya.

SiXUlm
sumber
Mengabaikan kemungkinan data, yang merupakan kesamaan untuk pendekatan frequentist dan Bayesian, gagasan bahwa overfitting berasal dari pilihan sebelumnya adalah wawasan. Itu menyiratkan bahwa tidak ada cara untuk memeriksa overfitting, karena tidak ada cara atau perlu memeriksa sebelumnya jika kami telah melakukan semua pra-data kami memikirkan sebelumnya. Tapi tetap saja saya pergi dengan perasaan tenggelam bahwa prediksi ekstrem akan menunjukkan overfitting (regresi ke rata-rata). Sebelumnya adalah tentang parameter, bukan tentang ekstrem dalam data.
Frank Harrell