Saya baru-baru ini menyaksikan pembicaraan oleh Eric J. Ma dan memeriksa entri blog - nya , di mana ia mengutip Radford Neal, bahwa model Bayesian tidak mengenakan pakaian yang berlebihan (tetapi mereka bisa mengenakan pakaian yang sesuai ) dan ketika menggunakannya, kita tidak perlu set tes untuk memvalidasi mereka (untuk saya kutip tampaknya lebih berbicara tentang menggunakan set validasi untuk menyesuaikan parameter) Jujur saja, argumennya tidak meyakinkan saya dan saya tidak punya akses ke buku itu, jadi bisakah Anda memberikan argumen yang lebih detail dan teliti untuk, atau menentang pernyataan seperti itu?
Ngomong-ngomong, sementara itu, Eric Ma telah mengarahkan saya diskusi ini pada topik yang sama.
Jawaban:
Jika kita menggunakan "model yang benar" dan "prior yang sebenarnya" yang mencerminkan beberapa informasi sebelumnya yang ditangkap dengan tepat, maka sejauh yang saya tahu seorang Bayesian benar-benar tidak memiliki masalah overfitting dan bahwa distribusi prediksi posterior yang diberikan sangat sedikit data akan sangat tidak pasti. . Namun, jika kita menggunakan semacam model yang dipilih secara pragmatis (yaitu kita telah memutuskan bahwa misalnya tingkat bahaya konstan dari waktu ke waktu dan model eksponensial sesuai atau misalnya bahwa beberapa kovariat tidak ada dalam model = titik sebelum koefisien nol) dengan beberapa default tidak menginformasikan atau mengatur prior, maka kita benar-benar tidak tahu apakah ini masih berlaku. Dalam hal itu pilihan (hyper-) prior memiliki beberapa kesewenang-wenangan terhadapnya yang mungkin atau mungkin tidak menghasilkan prediksi sampel yang baik.
Dengan demikian, maka sangat masuk akal untuk mengajukan pertanyaan apakah pilihan hyperparameter (= parameter dari hyperpriors) dalam kombinasi dengan kemungkinan yang dipilih akan berkinerja baik. Bahkan, Anda dapat dengan mudah memutuskan bahwa itu adalah ide yang baik untuk menyetel hyperparameter Anda untuk mendapatkan beberapa kinerja prediksi yang diinginkan. Dari perspektif itu, set validasi (atau validasi silang) untuk menyetel hyperparameter dan set tes untuk mengonfirmasi kinerja masuk akal.
Saya pikir ini terkait erat dengan sejumlah diskusi Andrew Gelman di blog-nya (lihat misalnya entri blog 1 , entri blog 2 , entri blog 3 di LOO untuk Stan dan diskusi tentang cek prediktif posterior), di mana ia membahas kekhawatirannya di sekitar (dalam beberapa hal benar) mengklaim bahwa seorang Bayesian tidak boleh memeriksa apakah model mereka masuk akal dan tentang evaluasi model Bayesian yang praktis.
Tentu saja, kami sangat sering paling tertarik untuk menggunakan metode Bayesian di pengaturan, di mana ada sedikit informasi sebelumnya dan kami ingin menggunakan prior agak informatif. Pada titik itu mungkin menjadi agak sulit untuk memiliki data yang cukup untuk pergi ke mana saja dengan validasi dan evaluasi pada set tes.
sumber
Jadi saya menjawab pertanyaan tentang overfitting yang Anda referensi dan saya menonton video dan membaca posting blog. Radford Neal tidak mengatakan bahwa model Bayesian tidak cocok. Mari kita ingat bahwa overfitting adalah fenomena noise yang diperlakukan sebagai sinyal dan dimasukkan ke dalam estimasi parameter. Itu bukan satu-satunya sumber kesalahan pemilihan model. Namun diskusi Neal lebih luas dengan menjelajah ke gagasan tentang ukuran sampel kecil ia memberanikan diri dalam diskusi overfitting.
Izinkan saya merevisi sebagian posting saya sebelumnya bahwa model Bayesian dapat mengenakan semua model pakaian Bayesian, tetapi melakukannya dengan cara yang meningkatkan prediksi. Sekali lagi, kembali ke definisi sinyal yang membingungkan dengan noise, ketidakpastian dalam metode Bayesian, distribusi posterior, adalah kuantifikasi ketidakpastian itu untuk apa sinyal dan apa itu noise. Dengan melakukan itu, metode Bayesian menyita kebisingan ke dalam perkiraan sinyal karena seluruh posterior digunakan dalam inferensi dan prediksi. Overfitting dan sumber kesalahan klasifikasi model lain adalah jenis masalah yang berbeda dalam metode Bayesian.
Untuk menyederhanakan, mari kita mengadopsi struktur pembicaraan Ma dan fokus pada regresi linier dan menghindari diskusi pembelajaran yang mendalam karena, sebagaimana ia tunjukkan, metode alternatif yang ia sebutkan hanyalah komposisi fungsi dan ada hubungan langsung antara logika linear. regresi dan pembelajaran yang mendalam.
Untuk memberikan contoh dunia nyata, saya menguji 78 model kebangkrutan. Dari 78 model, probabilitas posterior gabungan 76 dari mereka adalah sekitar seperseribu dari satu persen. Dua model lainnya masing-masing sekitar 54 persen dan 46 persen. Untungnya, mereka juga tidak berbagi variabel apa pun. Itu memungkinkan saya untuk memilih kedua model dan mengabaikan yang lain 76. Ketika saya memiliki semua poin data untuk keduanya, saya rata-rata prediksi mereka berdasarkan probabilitas posterior kedua model, menggunakan hanya satu model ketika saya kehilangan titik data yang menghalangi lain. Walaupun saya memiliki set pelatihan dan set validasi, itu bukan karena alasan yang sama dengan Frequentist. Selain itu, pada akhir setiap hari selama dua siklus bisnis, saya memperbarui posisi saya dengan data setiap hari. Itu berarti bahwa model saya pada akhir set validasi bukan model pada akhir set pelatihan. Model Bayesian tidak berhenti belajar sementara model Frequentist melakukannya.
Model adalah parameter dalam pemikiran Bayesian dan karena itu acak, atau jika Anda lebih suka, tidak pasti. Ketidakpastian itu tidak berakhir selama proses validasi. Itu terus diperbarui.
Karena perbedaan antara metode Bayesian dan Frequentist, ada jenis kasus lain yang juga harus dipertimbangkan. Yang pertama berasal dari inferensi parameter, yang kedua dari prediksi formal. Mereka bukan hal yang sama dalam metode Bayesian. Metode Bayesian secara formal memisahkan inferensi dan pengambilan keputusan. Mereka juga memisahkan estimasi dan prediksi parameter.
Jika tidak ada informasi material sebelumnya dan jika kepadatan prediktif Frequentist digunakan daripada perkiraan titik, maka untuk sampel tetap, hasil dari metode Bayesian dan Frequentist akan identik jika model tunggal dipilih. Jika ada informasi sebelumnya, maka metode Bayesian akan cenderung menghasilkan prediksi yang lebih akurat. Perbedaan ini bisa sangat besar dalam praktiknya. Selanjutnya, jika ada model rata-rata, maka sangat mungkin bahwa metode Bayesian akan lebih kuat. Jika Anda menggunakan pemilihan model dan membekukan prediksi Bayesian, maka tidak ada perbedaan untuk menggunakan model Frequentist menggunakan prediksi Frequentist.
Saya menggunakan set tes dan validasi karena data saya tidak dapat ditukar. Akibatnya, saya harus menyelesaikan dua masalah. Yang pertama mirip dengan burn-in dalam metode MCMC. Saya membutuhkan seperangkat perkiraan parameter yang baik untuk memulai urutan pengujian saya, dan jadi saya menggunakan lima puluh tahun data sebelumnya untuk mendapatkan kepadatan sebelumnya yang baik untuk memulai tes validasi saya. Masalah kedua adalah bahwa saya memerlukan beberapa bentuk periode standar untuk menguji sehingga tes tidak akan dipertanyakan. Saya menggunakan dua siklus bisnis sebelumnya seperti tanggal oleh NBER.
sumber