Benarkah metode Bayesian tidak overfit?

25

Benarkah metode Bayesian tidak overfit? (Saya melihat beberapa makalah dan tutorial membuat klaim ini)

Sebagai contoh, jika kita menerapkan Proses Gaussian ke MNIST (klasifikasi digit tulisan tangan), tetapi hanya memperlihatkannya sebagai sampel tunggal, akankah ia kembali ke distribusi sebelumnya untuk input yang berbeda dari sampel tunggal itu, betapapun kecil perbedaannya?

MaxB
sumber
baru saja berpikir - apakah ada cara matematis yang tepat yang dapat Anda tetapkan "over fitting"? jika Anda bisa, kemungkinan Anda juga dapat membuat fitur menjadi fungsi kemungkinan atau sebelum menghindarinya. pemikiran saya adalah bahwa gagasan ini terdengar mirip dengan "pencilan".
probabilityislogic

Jawaban:

25

Tidak, itu tidak benar. Metode Bayesian tentu akan sesuai dengan data. Ada beberapa hal yang membuat metode Bayesian lebih kuat melawan overfitting dan Anda bisa membuatnya lebih rapuh juga.

Sifat kombinatorik dari hipotesis Bayesian, daripada hipotesis biner memungkinkan untuk beberapa perbandingan ketika seseorang tidak memiliki model "benar" untuk metode hipotesis nol. Sebuah posterior Bayesian secara efektif menghukum peningkatan dalam struktur model seperti menambahkan variabel sambil memberi penghargaan perbaikan yang sesuai. Hukuman dan keuntungan bukanlah optimisasi seperti yang terjadi pada metode non-Bayesian, tetapi pergeseran probabilitas dari informasi baru.

Meskipun ini umumnya memberikan metodologi yang lebih kuat, ada kendala penting dan itu menggunakan distribusi sebelumnya yang tepat. Meskipun ada kecenderungan untuk meniru metode Frequentist dengan menggunakan prior flat, ini tidak menjamin solusi yang tepat. Ada artikel tentang overfitting dalam metode Bayesian dan tampaknya bagi saya bahwa dosa tampaknya dalam upaya untuk menjadi "adil" untuk metode non-Bayesian dengan memulai dengan prior datar. Kesulitannya adalah bahwa prior penting dalam menormalkan kemungkinan.

Model Bayesian adalah model yang secara intrinsik optimal dalam arti penerimaan kata Wald, tetapi ada hantu yang tersembunyi di sana. Wald berasumsi bahwa prior adalah prior Anda yang sebenarnya dan bukan beberapa prior yang Anda gunakan sehingga editor tidak akan menyesal karena memasukkan terlalu banyak informasi di dalamnya. Mereka tidak optimal dalam arti yang sama dengan model Frequentist. Metode Frequentist dimulai dengan optimalisasi meminimalkan varians sementara tetap tidak bias.

Ini adalah optimasi yang mahal karena membuang informasi dan secara intrinsik tidak dapat diterima dalam pengertian Wald, meskipun seringkali dapat diterima. Jadi model Frequentist memberikan kesesuaian yang optimal dengan data, mengingat ketidakberpihakan. Model Bayesian tidak cocok atau tidak cocok untuk data. Ini adalah perdagangan yang Anda lakukan untuk meminimalkan overfitting.

Model Bayesian adalah model yang secara intrinsik bias, kecuali jika langkah-langkah khusus diambil untuk membuatnya tidak bias, yang biasanya lebih buruk untuk data. Keutamaan mereka adalah bahwa mereka tidak pernah menggunakan informasi yang lebih sedikit daripada metode alternatif untuk menemukan "model yang sebenarnya" dan informasi tambahan ini membuat model Bayesian tidak pernah kalah berisiko daripada model alternatif, terutama ketika mengerjakan sampel. Yang mengatakan, akan selalu ada sampel yang bisa diambil secara acak yang secara sistematis akan "menipu" metode Bayesian.

Adapun bagian kedua dari pertanyaan Anda, jika Anda menganalisis satu sampel, posterior akan selamanya diubah di semua bagiannya dan tidak akan kembali ke sebelumnya kecuali ada sampel kedua yang secara tepat membatalkan semua informasi dalam sampel pertama. Setidaknya secara teoritis ini benar. Dalam praktiknya, jika prior cukup informatif dan pengamatan tidak cukup informatif, maka dampaknya bisa sangat kecil sehingga komputer tidak dapat mengukur perbedaan karena keterbatasan jumlah digit signifikan. Mungkin saja efeknya terlalu kecil bagi komputer untuk memproses perubahan pada posterior.

Jadi jawabannya adalah "ya" Anda bisa mengenakan sampel menggunakan metode Bayesian, terutama jika Anda memiliki ukuran sampel kecil dan prior yang tidak tepat. Jawaban kedua adalah "tidak" Teorema Bayes tidak pernah melupakan dampak dari data sebelumnya, meskipun efeknya bisa sangat kecil sehingga Anda melewatkannya secara komputasi.

Dave Harris
sumber
2
Di Mereka mulai dengan optimasi meminimalkan varians sambil tetap tidak bias. , apa Mereka ?
Richard Hardy
N(θ,σ2)σ
1
σ
11

Sesuatu yang harus diperhatikan adalah bahwa seperti praktis di tempat lain, masalah yang signifikan dalam metode Bayesian dapat menjadi model kesalahan spesifikasi.

Ini adalah poin yang jelas, tetapi saya pikir saya masih akan berbagi cerita.

Sebuah sketsa dari belakang di ...

Aplikasi klasik dari penyaringan partikel Bayesian adalah untuk melacak lokasi robot saat bergerak di sekitar ruangan. Gerakan memperluas ketidakpastian sementara pembacaan sensor mengurangi ketidakpastian.

Saya ingat mengkodekan beberapa rutinitas untuk melakukan ini. Saya menulis model yang masuk akal, termotivasi secara teoritis untuk kemungkinan mengamati berbagai bacaan sonar mengingat nilai-nilai yang sebenarnya. Semuanya tepat diturunkan dan dikodekan dengan indah. Lalu aku pergi untuk mengujinya ...

Apa yang terjadi? Kegagalan total! Mengapa? Filter partikel saya dengan cepat berpikir bahwa pembacaan sensor telah menghilangkan hampir semua ketidakpastian. Titik awan saya runtuh ke suatu titik, tetapi robot saya belum tentu pada saat itu!

Pada dasarnya, fungsi kemungkinan saya buruk; pembacaan sensor saya tidak informatif seperti yang saya kira. Saya overfitting. Sebuah solusi? Saya mencampur lebih banyak noise Gaussian (dengan cara yang agak ad-hoc), titik awan berhenti runtuh, dan kemudian penyaringan bekerja dengan lebih indah.

Moral?

Seperti yang dikatakan Box terkenal, "semua model salah, tetapi beberapa berguna." Hampir bisa dipastikan, Anda tidak akan memiliki fungsi kemungkinan yang sebenarnya, dan jika cukup, metode Bayesian Anda bisa jadi serba salah dan berpakaian berlebihan.

Menambahkan sebelum tidak secara ajaib menyelesaikan masalah yang berasal dari asumsi pengamatan adalah IID ketika mereka tidak, dengan asumsi kemungkinan memiliki lebih banyak kelengkungan daripada yang dilakukannya dll ...

Matthew Gunn
sumber
3
"Sebuah sketsa dari belakang di tingkat sarjana ... Aplikasi klasik dari penyaringan partikel Bayesian adalah untuk melacak lokasi robot saat bergerak di sekitar ruangan" ... whoa, di mana mahasiswa Anda? :)
Cliff AB