Meningkatkan jaringan saraf

21

Nah baru-baru ini saya bekerja pada belajar algoritma meningkatkan, seperti AdaBoost, meningkatkan gradien, dan saya tahu fakta bahwa yang paling umum digunakan lemah-pelajar adalah pohon. Saya benar-benar ingin tahu apakah ada beberapa contoh sukses baru-baru ini (maksud saya beberapa makalah atau artikel) untuk menggunakan jaringan saraf sebagai pembelajar dasar.

pengguna4380802
sumber
Ini mungkin menarik dibaca untuk Anda: arxiv.org/pdf/1706.04964.pdf
Daniel

Jawaban:

8

Dalam meningkatkan, pengklasifikasi lemah atau tidak stabil digunakan sebagai pembelajar dasar. Ini terjadi karena tujuannya adalah untuk menghasilkan batas keputusan yang sangat berbeda. Kemudian, dasar yang baik pelajar adalah salah satu yang sangat bias, dengan kata lain, output tetap pada dasarnya sama bahkan ketika parameter pelatihan untuk peserta didik dasar berubah sedikit.

Dalam jaringan saraf, putus sekolah adalah teknik regularisasi yang dapat dibandingkan dengan pelatihan ansambel. Perbedaannya adalah bahwa ensembel dilakukan dalam ruang laten (neuron ada atau tidak) sehingga mengurangi kesalahan generalisasi.

"Setiap contoh pelatihan sehingga dapat dilihat sebagai memberikan gradien untuk, arsitektur secara acak sampel yang berbeda, sehingga jaringan saraf akhir efisien merupakan ensemble besar jaringan saraf, dengan kemampuan yang baik generalisasi" - mengutip dari sini .

Ada dua teknik seperti: di neuron putus sekolah dijatuhkan (yang berarti neuron eksis atau tidak dengan probabilitas tertentu) sementara di dropconnect bobot dijatuhkan.

Sekarang, untuk menjawab pertanyaan Anda, saya percaya bahwa jaringan saraf (atau perceptrons) tidak digunakan sebagai pelajar dasar dalam pengaturan peningkatan karena mereka lebih lambat untuk melatih (hanya membutuhkan waktu terlalu banyak) dan peserta didik tidak lemah, walaupun mereka bisa setup menjadi lebih tidak stabil. Jadi, itu tidak layak usaha.

Mungkin ada penelitian tentang topik ini, namun sangat disayangkan bahwa ide yang tidak berfungsi dengan baik biasanya tidak berhasil dipublikasikan. Kami membutuhkan lebih banyak penelitian yang mencakup jalur yang tidak mengarah ke mana pun, alias "jangan repot-repot mencoba ini".

EDIT:

Saya punya sedikit lebih banyak tentang ini dan jika Anda tertarik pada ansambel jaringan besar, maka Anda mungkin merujuk pada metode menggabungkan output dari beberapa jaringan tersebut. Kebanyakan orang rata-rata atau menggunakan pemungutan suara mayoritas tergantung pada tugas - ini mungkin tidak optimal. Saya percaya seharusnya bisa mengubah bobot untuk setiap output jaringan sesuai dengan kesalahan pada catatan tertentu. Semakin sedikit hasil yang dikorelasikan, semakin baik aturan grup Anda.

shuriken x blue
sumber
2

Saya melihat ini tidak memiliki jawaban yang diterima jadi saya akan memberikan jawaban yang sangat heuristik. Ya, sudah selesai .... misalnya tersedia di JMP Pro (mungkin paket stat terbaik yang belum pernah Anda dengar). http://www.jmp.com/support/help/Overview_of_Neural_Networks.shtml

Ada deskripsi di tengah halaman untuk apa itu digunakan. Saya belum dimasukkan siklus apapun ke menyelidiki teori, tetapi tampaknya mereka menyiratkan itu mencapai dasarnya hasil yang sama seperti menggunakan lebih node dalam model yang lebih besar tunggal. Keuntungan [mereka mengklaim] adalah kecepatan pemasangan model.

Untuk ukuran yang sangat kasar, saya membandingkannya pada dataset yang saya miliki dengan 2 sigmoid dan 2 node Gaussian dan meningkatkan model 6x terhadap 12 sigmoid dan 12 node Gaussian dalam model tunggal dan hasilnya hampir identik pada set data pengujian saya .

Saya juga tidak melihat adanya perbedaan kecepatan ... tetapi dataset hanya 1600 poin dan saya hanya menggunakan 12 variabel, jadi pada dataset yang lebih besar dengan lebih banyak variabel mungkin benar bahwa ada perbedaan perhitungan yang nyata.

JPJ
sumber