Saya telah melihat beberapa artikel penelitian yang mengklaim bahwa jaringan saraf klasik biasanya kurang memiliki kemampuan generalisasi yang memuaskan, yang biasanya menghasilkan prediksi yang tidak tepat, dan JST yang diregulasi Bayesian (BRANNs) lebih kuat daripada jaring propagasi balik standar dan dapat mengurangi atau menghilangkan perlu untuk validasi silang yang panjang.
Namun artikel ini gagal memberikan alasan / pembenaran yang tepat untuk klaim ini.
Dalam hal apa , atau untuk tujuan tertentu apa BRANN lebih baik daripada NN klasik? Dan mengapa?
Masalah utama dengan jaring saraf cenderung mencegah pemasangan berlebihan. Regulatorisasi Bayesian (yang membatasi besarnya bobot) adalah salah satu pendekatan untuk ini, stabilisasi struktural (yaitu membatasi jumlah simpul tersembunyi dan / atau bobot adalah yang lain). Tidak ada pendekatan yang merupakan obat mujarab, dan umumnya kombinasi regularisasi dan stabilisasi struktural lebih baik (yang berarti Anda perlu cross-validasi lagi untuk memilih arsitektur jaringan - menggunakan bukti Bayesian untuk ini adalah ide yang buruk karena bukti bias karena hasilnya penggunaannya dalam menyetel parameter regularisasi dan tidak dapat diandalkan jika ada model yang tidak memenuhi spesifikasi). Yang paling berhasil pada dasarnya tergantung pada masalah, dan cara terbaik untuk mengetahuinya adalah dengan mencoba keduanya dan melihat (gunakan misalnya validasi silang untuk memperkirakan kinerja dengan cara yang tidak bias).
Juga regularisasi tidak harus Bayesian, Anda dapat memilih berapa banyak untuk mengatur jaringan menggunakan cross-validation. Salah satu masalah dengan metode Bayesian adalah bahwa mereka dapat memberikan hasil yang buruk jika modelnya tidak ditentukan, dalam hal ini, metode regularisasi berbasis validasi silang mungkin lebih kuat.
Poin penting lainnya adalah bahwa tidak semua formulasi jaringan saraf Bayesian adalah sama. Kerangka kerja Bukti MacKay cenderung tidak berfungsi dengan baik untuk masalah klasifikasi karena pendekatan Laplace yang digunakannya tidak bekerja dengan baik untuk distribusi posterior yang miring untuk bobot. Pendekatan MCMC dari Radford Neal kemungkinan akan bekerja lebih baik untuk tugas-tugas ini, tetapi mahal secara komputasi dan menilai konvergensi dll tidak mudah.
Namun, model jaringan saraf agak rumit untuk mendapatkan yang benar dan dalam praktiknya lebih mudah untuk mendapatkan kinerja generalisasi yang baik dari metode kernel atau proses Gaussian, jadi saya akan menggunakannya sebagai gantinya untuk sebagian besar tugas, terutama jika hanya ada sedikit data pelatihan.
Saya melakukan studi empiris yang sangat luas tentang hal ini baru-baru ini, tetapi saya perlu menemukan jurnal yang akan menerima studi empiris yang menarik bagi praktisi, tetapi dengan konten penelitian yang sangat sedikit.
Bagaimana maksud Anda "bukti bias karena penggunaannya dalam menyetel parameter regularisasi"? Parameter itu, biasanyaα dan βdalam notasi Bishop, dibuat dengan tangan, berdasarkan estimasi presisi data dan keyakinan tentang bobot model.
Ytsen de Boer
@YtsendeBoer Bukti (kemungkinan marjinal) dievaluasi lebih dari satu set data yang terbatas, sehingga nilainya tergantung pada sampel tertentu, dan sedemikian rupa sehingga memiliki komponen yang pada dasarnya hanya noise. Jika Anda menyetel model dengan mengoptimalkan bukti, bagian dari perbaikan yang terlihat adalah karena menyesuaikan kebisingan dalam kemungkinan marjinal, serta dalam perubahan yang benar-benar meningkatkan kinerja. Jadi setelah optimalisasi, bukti memberikan pandangan optimis pada kinerja aktual model dan karenanya bukan panduan yang baik untuk misalnya optimasi struktur sesudahnya.
Dikran Marsupial
Anda tampaknya menyarankan bahwa menyetel model dengan mengoptimalkan bukti mengarah pada overfitting, maka Regularisasi Bayesian tidak berfungsi. Tetapi model harus disesuaikan dengan mengoptimalkan kemungkinan kali sebelum bobot model (menjagaα dan βtetap). Setelah itu, model terbaik dapat dipilih dengan mengevaluasi bukti-bukti mereka. Tampak bagi saya bahwa bias hanya diperkenalkan setelah seseorang mengoptimalkan bukti untuk menemukan yang paling "tepat" sebelum bobot model, atau lebih buruk, data. Saya setuju bahwa model yang dipilih dengan cara ini tidak dapat dipercaya dan harus diverifikasi dengan data baru.
Ytsen de Boer
Jika Anda menyimpan a l p h a dan b e t akonstan, itu bukan regularisasi Bayesian, hanya regularisasi. Jika Anda memilih model terbaik sesuai dengan bukti, maka itu adalah mengoptimalkan bukti dan memperkenalkan kemungkinan over-fitting kriteria pemilihan model. Saya tidak mengatakan regularisasi Bayesian (yaitu kerangka bukti MacKay) tidak berfungsi, sampai pada titik tertentu, tetapi kemungkinan akan gagal jika ada terlalu sedikit data atau terlalu banyak parameter hiper (misalnya ARD). Over-optimal / fitting bukti dapat menyebabkan data terlalu pas atau kurang.
Dikran Marsupial
4
Anda menggunakan BRANN untuk tujuan yang sama seperti JST biasa, biasanya klasifikasi dan regresi. Seperti yang dikatakan Dikran Marsupial, lebih baik karena mereka lebih kuat melawan overfitting, dan memungkinkan Anda untuk bekerja dengan jumlah neuron yang lebih tinggi tanpa mengalami overfitting. Selain itu, ia memberi Anda bar kesalahan pada output, yaitu, Anda memiliki tingkat kepercayaan dari masing-masing output.
Namun demikian, teknik-teknik baru seperti putus sekolah dan maxout tampaknya telah mengesampingkan teknik ini, keduanya karena lebih mudah digunakan dan menghasilkan hasil yang lebih baik. Di sini dropout ditunjukkan untuk melakukan penskalaan dan regularisasi dalam arti tertentu.
Namun, jika Anda tertarik pada detailnya, Anda dapat memeriksa makalahnya oleh David MacKay (pria yang memenangkan beberapa kompetisi dengan teknik ini).
Anda menggunakan BRANN untuk tujuan yang sama seperti JST biasa, biasanya klasifikasi dan regresi. Seperti yang dikatakan Dikran Marsupial, lebih baik karena mereka lebih kuat melawan overfitting, dan memungkinkan Anda untuk bekerja dengan jumlah neuron yang lebih tinggi tanpa mengalami overfitting. Selain itu, ia memberi Anda bar kesalahan pada output, yaitu, Anda memiliki tingkat kepercayaan dari masing-masing output.
Namun demikian, teknik-teknik baru seperti putus sekolah dan maxout tampaknya telah mengesampingkan teknik ini, keduanya karena lebih mudah digunakan dan menghasilkan hasil yang lebih baik. Di sini dropout ditunjukkan untuk melakukan penskalaan dan regularisasi dalam arti tertentu.
Namun, jika Anda tertarik pada detailnya, Anda dapat memeriksa makalahnya oleh David MacKay (pria yang memenangkan beberapa kompetisi dengan teknik ini).
sumber