Benarkah orang Bayesian tidak membutuhkan set tes?

Jika kita menggunakan "model yang benar" dan "prior yang sebenarnya" yang mencerminkan beberapa informasi sebelumnya yang ditangkap dengan tepat, maka sejauh yang saya tahu seorang Bayesian benar-benar tidak memiliki masalah overfitting dan bahwa distribusi prediksi posterior yang diberikan sangat sedikit data akan sangat tidak pasti. . Namun, jika kita menggunakan semacam model yang dipilih secara pragmatis (yaitu kita telah memutuskan bahwa misalnya tingkat bahaya konstan dari waktu ke waktu dan model eksponensial sesuai atau misalnya bahwa beberapa kovariat tidak ada dalam model = titik sebelum koefisien nol) dengan beberapa default tidak menginformasikan atau mengatur prior, maka kita benar-benar tidak tahu apakah ini masih berlaku. Dalam hal itu pilihan (hyper-) prior memiliki beberapa kesewenang-wenangan terhadapnya yang mungkin atau mungkin tidak menghasilkan prediksi sampel yang baik.

Dengan demikian, maka sangat masuk akal untuk mengajukan pertanyaan apakah pilihan hyperparameter (= parameter dari hyperpriors) dalam kombinasi dengan kemungkinan yang dipilih akan berkinerja baik. Bahkan, Anda dapat dengan mudah memutuskan bahwa itu adalah ide yang baik untuk menyetel hyperparameter Anda untuk mendapatkan beberapa kinerja prediksi yang diinginkan. Dari perspektif itu, set validasi (atau validasi silang) untuk menyetel hyperparameter dan set tes untuk mengonfirmasi kinerja masuk akal.

Saya pikir ini terkait erat dengan sejumlah diskusi Andrew Gelman di blog-nya (lihat misalnya entri blog 1 , entri blog 2 , entri blog 3 di LOO untuk Stan dan diskusi tentang cek prediktif posterior), di mana ia membahas kekhawatirannya di sekitar (dalam beberapa hal benar) mengklaim bahwa seorang Bayesian tidak boleh memeriksa apakah model mereka masuk akal dan tentang evaluasi model Bayesian yang praktis.

Tentu saja, kami sangat sering paling tertarik untuk menggunakan metode Bayesian di pengaturan, di mana ada sedikit informasi sebelumnya dan kami ingin menggunakan prior agak informatif. Pada titik itu mungkin menjadi agak sulit untuk memiliki data yang cukup untuk pergi ke mana saja dengan validasi dan evaluasi pada set tes.

Björn
sumber

Jadi saya menjawab pertanyaan tentang overfitting yang Anda referensi dan saya menonton video dan membaca posting blog. Radford Neal tidak mengatakan bahwa model Bayesian tidak cocok. Mari kita ingat bahwa overfitting adalah fenomena noise yang diperlakukan sebagai sinyal dan dimasukkan ke dalam estimasi parameter. Itu bukan satu-satunya sumber kesalahan pemilihan model. Namun diskusi Neal lebih luas dengan menjelajah ke gagasan tentang ukuran sampel kecil ia memberanikan diri dalam diskusi overfitting.

Izinkan saya merevisi sebagian posting saya sebelumnya bahwa model Bayesian dapat mengenakan semua model pakaian Bayesian, tetapi melakukannya dengan cara yang meningkatkan prediksi. Sekali lagi, kembali ke definisi sinyal yang membingungkan dengan noise, ketidakpastian dalam metode Bayesian, distribusi posterior, adalah kuantifikasi ketidakpastian itu untuk apa sinyal dan apa itu noise. Dengan melakukan itu, metode Bayesian menyita kebisingan ke dalam perkiraan sinyal karena seluruh posterior digunakan dalam inferensi dan prediksi. Overfitting dan sumber kesalahan klasifikasi model lain adalah jenis masalah yang berbeda dalam metode Bayesian.

Untuk menyederhanakan, mari kita mengadopsi struktur pembicaraan Ma dan fokus pada regresi linier dan menghindari diskusi pembelajaran yang mendalam karena, sebagaimana ia tunjukkan, metode alternatif yang ia sebutkan hanyalah komposisi fungsi dan ada hubungan langsung antara logika linear. regresi dan pembelajaran yang mendalam.

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

N

$N$

n_{1}, n_{2}

$n_1,n_2$

n_{1}

$n_1$

n_{2}

$n_2$

$m_1\dots{_8}$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3},

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3,$

y = β_{0},

$y=\beta_0,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} x_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3} x_{3},

$y=\beta_0+\beta_3x_3,$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2},

$y=\beta_0+\beta_1x_1+\beta_2x_2,$

y = β_{0} + β_{1} x_{1} + β_{3} x_{3},

$y=\beta_0+\beta_1x_1+\beta_3x_3,$

y = β_{0} + β_{2} x_{2} + β_{3} x_{3},

$y=\beta_0+\beta_2x_2+\beta_3x_3,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} x_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3} x_{3} .

$y=\beta_0+\beta_3x_3.$

$n_1,$

Untuk memberikan contoh dunia nyata, saya menguji 78 model kebangkrutan. Dari 78 model, probabilitas posterior gabungan 76 dari mereka adalah sekitar seperseribu dari satu persen. Dua model lainnya masing-masing sekitar 54 persen dan 46 persen. Untungnya, mereka juga tidak berbagi variabel apa pun. Itu memungkinkan saya untuk memilih kedua model dan mengabaikan yang lain 76. Ketika saya memiliki semua poin data untuk keduanya, saya rata-rata prediksi mereka berdasarkan probabilitas posterior kedua model, menggunakan hanya satu model ketika saya kehilangan titik data yang menghalangi lain. Walaupun saya memiliki set pelatihan dan set validasi, itu bukan karena alasan yang sama dengan Frequentist. Selain itu, pada akhir setiap hari selama dua siklus bisnis, saya memperbarui posisi saya dengan data setiap hari. Itu berarti bahwa model saya pada akhir set validasi bukan model pada akhir set pelatihan. Model Bayesian tidak berhenti belajar sementara model Frequentist melakukannya.

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

y = β_{0} + β_{1} x_{1} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_3x_3.$

$n_2^i$

Model adalah parameter dalam pemikiran Bayesian dan karena itu acak, atau jika Anda lebih suka, tidak pasti. Ketidakpastian itu tidak berakhir selama proses validasi. Itu terus diperbarui.

Karena perbedaan antara metode Bayesian dan Frequentist, ada jenis kasus lain yang juga harus dipertimbangkan. Yang pertama berasal dari inferensi parameter, yang kedua dari prediksi formal. Mereka bukan hal yang sama dalam metode Bayesian. Metode Bayesian secara formal memisahkan inferensi dan pengambilan keputusan. Mereka juga memisahkan estimasi dan prediksi parameter.

$\hat{\sigma^2}<k$

$k$ $n_2$ $n_1$

$n_1$ $n_1$ $n_2$ $n_2$

$n_1$ $\Pr(\tilde{x}=k|\mathbf{X})$ $\tilde{x}$ $\mathbf{X}$ $\theta?$ Meskipun sistem prediksi Frequentist memang ada, kebanyakan orang hanya memperlakukan estimasi titik sebagai parameter sebenarnya dan menghitung residu. Metode Bayesian akan skor setiap prediksi terhadap kepadatan yang diprediksi bukan hanya satu titik. Prediksi ini tidak tergantung pada parameter yang berbeda dari metode titik yang digunakan dalam solusi Frequentist.

$n_1+n_2>n_1$

Jika tidak ada informasi material sebelumnya dan jika kepadatan prediktif Frequentist digunakan daripada perkiraan titik, maka untuk sampel tetap, hasil dari metode Bayesian dan Frequentist akan identik jika model tunggal dipilih. Jika ada informasi sebelumnya, maka metode Bayesian akan cenderung menghasilkan prediksi yang lebih akurat. Perbedaan ini bisa sangat besar dalam praktiknya. Selanjutnya, jika ada model rata-rata, maka sangat mungkin bahwa metode Bayesian akan lebih kuat. Jika Anda menggunakan pemilihan model dan membekukan prediksi Bayesian, maka tidak ada perbedaan untuk menggunakan model Frequentist menggunakan prediksi Frequentist.

Saya menggunakan set tes dan validasi karena data saya tidak dapat ditukar. Akibatnya, saya harus menyelesaikan dua masalah. Yang pertama mirip dengan burn-in dalam metode MCMC. Saya membutuhkan seperangkat perkiraan parameter yang baik untuk memulai urutan pengujian saya, dan jadi saya menggunakan lima puluh tahun data sebelumnya untuk mendapatkan kepadatan sebelumnya yang baik untuk memulai tes validasi saya. Masalah kedua adalah bahwa saya memerlukan beberapa bentuk periode standar untuk menguji sehingga tes tidak akan dipertanyakan. Saya menggunakan dua siklus bisnis sebelumnya seperti tanggal oleh NBER.

Dave Harris
sumber

Tetapi kemudian, katakan bahwa Anda memperkirakan MAP untuk model regresi linier dengan prior "tidak informatif". Ini akan setara dengan memperoleh estimasi kemungkinan maksimum untuk model, jadi ML tidak perlu uji coba, dengan asumsi nilai tukar?

Tim

"overfitting adalah fenomena noise yang diperlakukan sebagai sinyal dan dimasukkan ke dalam estimasi parameter" Saya percaya definisi ini khusus untuk model noise tambahan. Kalau tidak, overfitting vs underfitting tidak didefinisikan dengan baik.

Cagdas Ozgenc

@CagdasOzgenc terima kasih. Apakah Anda memiliki suntingan yang disarankan?

Dave Harris

@Tim saya tidak pernah menyebutkan estimator MAP. Jika Anda mengurangi masalah hingga ke penaksir MAP maka Anda menyerah kekokohannya. Penaksir MAP adalah titik yang meminimalkan fungsi biaya di atas kepadatan. Ini bisa menjadi masalah untuk proyeksi jika kepadatan tidak memiliki statistik yang cukup. Estimator MAP akan, secara intrinsik, kehilangan informasi. Jika Anda menggunakan penduga MAP, yang tidak ada dalam pertanyaan asli dan jelas bukan bagian dari presentasi Ma, maka Anda membuat serangkaian masalah yang berbeda untuk diri Anda sendiri.

Dave Harris

@ Tim Estimator MAP berasal dari teori keputusan Bayesian dan merupakan overlay di atas estimasi dan inferensi Bayesian. PETA nyaman. Ada harga yang harus dibayar saat memilih kenyamanan. Kecuali fungsi biaya semua atau tidak sama sekali adalah fungsi biaya sebenarnya, Anda menyerahkan informasi dan keakuratannya. Anda juga berakhir dengan masalah metodologi yang berbeda dari yang diusulkan dalam presentasi Ma.

Dave Harris

Benarkah orang Bayesian tidak membutuhkan set tes?

Jawaban: