Bayesian vs MLE, masalah overfitting

Dalam buku PRML Bishop, ia mengatakan bahwa, overfitting adalah masalah dengan Estimasi Kemungkinan Maksimum (MLE), dan Bayesian dapat menghindarinya.

Tapi saya pikir, overfitting adalah masalah lebih banyak tentang pemilihan model, bukan tentang metode yang digunakan untuk melakukan estimasi parameter. Yaitu, misalkan saya memiliki kumpulan data , yang dihasilkan melalui $D$ , sekarang saya mungkin memilih model yang berbeda agar sesuai dengan data dan mencari tahu mana yang terbaik. Dan model yang dipertimbangkan adalah model polinomial dengan pesanan berbeda, adalah pesanan 1, adalah pesanan 2, adalah pesanan 9.

f (x) = s i n (x), x \in [0, 1]

$f(x)=sin(x),\;x\in[0,1]$

H_{i}

$H_i$

H_{1}

$H_1$

H_{2}

$H_2$

H_{3}

$H_3$

Sekarang saya mencoba menyesuaikan data dengan masing-masing dari 3 model, masing-masing model memiliki parameternya, dilambangkan sebagai untuk . $D$ $w_i$ $H_i$

Menggunakan ML, saya akan memiliki estimasi titik parameter model , dan terlalu sederhana dan akan selalu underfit data, sedangkan terlalu kompleks dan akan overfit data, hanya akan cocok dengan data dengan baik. $w$ $H_1$ $H_3$ $H_2$

Pertanyaan saya adalah,

1) Model akan menyesuaikan data, tapi saya tidak berpikir itu masalah ML, tetapi masalah model itu sendiri. Karena, dengan menggunakan ML untuk tidak menghasilkan overfitting. Apakah saya benar? $H_3$ $H_1,H_2$

2) Dibandingkan dengan Bayesian, ML memang memiliki beberapa kelemahan, karena hanya memberikan estimasi titik parameter model , dan itu terlalu percaya diri. Sedangkan Bayesian tidak bergantung hanya pada nilai parameter yang paling mungkin, tetapi semua nilai yang mungkin dari parameter yang diberikan data yang diamati , kan? $w$ $D$

3) Mengapa Bayesian dapat menghindari atau mengurangi overfitting? Seperti yang saya pahami, kita dapat menggunakan Bayesian untuk perbandingan model, yaitu, mengingat data , kita bisa mengetahui kemungkinan marginal (atau bukti model) untuk masing-masing model yang dipertimbangkan, dan kemudian memilih yang dengan kemungkinan marginal tertinggi, benar ? Jika demikian, mengapa demikian? $D$

bayesian model-selection overfitting alpukat
sumber

Jawaban:

$^1$

GC Cawley dan NLC Talbot, Over-fitting dalam pemilihan model dan bias seleksi selanjutnya dalam evaluasi kinerja, Journal of Machine Learning Research, 2010. Penelitian, vol. 11, hlm. 2079-2107, Juli 2010. ( pdf )

Dikran Marsupial
sumber

+1, terima kasih banyak, saya akan membaca makalah Anda dan melihat apakah saya memiliki pertanyaan lebih lanjut, ;-)

alpukat

Hanya untuk dicatat di sini bahwa pengoptimalan biasanya dapat dianggap sebagai pengintegrasian - metode Laplace adalah contohnya. Mengoptimalkan biasanya gagal ketika itu bukan pendekatan yang baik untuk mengintegrasikan - karenanya mengapa REML biasanya lebih baik daripada ML.

probabilityislogic

@probabilityislogic, saya tidak yakin saya mengerti, ML sedikit seperti MAP, tidak ada integrasi yang dilakukan. Menggunakan pendekatan Laplace (seperti yang saya lihat digunakan sebelumnya) mengoptimalkan dalam arti bahwa Anda mengoptimalkan perkiraan untuk fungsi yang ingin Anda integrasikan dan diintegrasikan sebagai gantinya, tetapi masih ada integrasi yang terjadi.

Dikran Marsupial

@dikran marsupial - Mungkin cara yang lebih baik untuk menjelaskannya adalah bahwa integrasi sering didekati dengan baik dengan memperkirakan parameter dengan ML, dan membatasi parameter itu menjadi sama dengan MLE-nya. Perkiraan Laplace menyediakan "faktor koreksi" untuk intuisi ini - dengan cara yang sama seperti yang dilakukan oleh REML.

probabilityislogic

@probabilityislogic terima kasih atas jawabannya, saya akan memikirkannya!

Dikran Marsupial

Sebagai respons umum, jika Anda menggunakan model regresi tipe "kuadrat", sebenarnya tidak ada banyak perbedaan antara bayes dan ML, kecuali jika Anda menggunakan informasi informatif untuk parameter regresi. Menanggapi hal-hal spesifik:

$H_9$ $H_1$

$x$

3) Pendekatan Bayesian dapat menghindari overfitting hanya untuk prior yang tepat. Ini beroperasi dengan cara yang mirip dengan istilah penalti yang Anda lihat dalam beberapa algoritma yang sesuai. Misalnya, penalti L2 = normal sebelumnya, penalti L1 = laplace prior.

probabilityislogic
sumber

H_{9}

$H_9$

H_{\infty}

$H_\infty$

H_{9}

$H_9$

$H_1$ $H_2$ $H_3$

$2$ $H_1$

$l^1$

Youloush
sumber

Hipotesis sederhana (mis. H1, h2) dengan sampel pelatihan yang tidak mencukupi akan menjadi contoh kurang pas (untuk cv) dan tidak terlalu pas karena bias model pada beberapa contoh pelatihan yang diberikan.

yekta