Jaringan saraf modern yang membangun topologi mereka sendiri

21

Keterbatasan dari algoritma neural net standar (seperti backprop) adalah Anda harus membuat keputusan desain tentang berapa banyak layer tersembunyi dan neuron per layer yang Anda inginkan. Biasanya, tingkat pembelajaran dan generalisasi sangat sensitif terhadap pilihan-pilihan ini. Ini telah menjadi alasan, mengapa algoritma neural net seperti korelasi kaskade telah menghasilkan minat. Dimulai dengan topologi minimal (hanya unit input dan output) dan rekrut unit tersembunyi baru saat proses pembelajaran berlangsung.

Algoritma CC-NN diperkenalkan oleh Fahlman pada tahun 1990, dan versi berulang pada tahun 1991. Apa beberapa algoritma neural net yang lebih baru (pasca 1992) yang dimulai dengan topologi minimal?


Pertanyaan-pertanyaan Terkait

CogSci.SE: Jaringan saraf dengan akun neurogenesis yang masuk akal secara biologis

Artem Kaznatcheev
sumber
Dimungkinkan untuk bereksperimen dengan jaringan saraf berbasis proyeksi acak. Kode Entri Blog (github)
Sean O'Connor

Jawaban:

10

Pertanyaan tersirat di sini adalah bagaimana Anda dapat menentukan topologi / struktur jaringan pembelajaran model mesin atau saraf sehingga model "dari ukuran yang tepat" dan tidak overfitting / kekurangan.

Sejak korelasi kaskade kembali pada tahun 1990, telah ada sejumlah metode untuk melakukan ini sekarang, banyak dari mereka dengan sifat statistik atau komputasi yang jauh lebih baik:

  • meningkatkan: melatih pelajar yang lemah pada satu waktu, dengan setiap pelajar yang lemah diberikan pelatihan yang diatur ulang sehingga belajar hal-hal yang belum dipelajari peserta didik sebelumnya.
  • sparsity menginduksi regularisasi seperti laso atau penentuan relevansi otomatis: mulai dengan model / jaringan besar, dan gunakan regularizer yang mendorong unit yang tidak dibutuhkan untuk "dimatikan", meninggalkan yang bermanfaat aktif.
  • Bayesian nonparametrics: lupa mencoba menemukan ukuran model yang "tepat". Cukup gunakan satu model besar, dan berhati-hati dengan regularisasi / menjadi Bayesian, sehingga Anda tidak berpakaian berlebihan. Sebagai contoh, jaringan saraf dengan jumlah unit yang tak terbatas dan prior Gaussian dapat diturunkan menjadi proses Gaussian, yang ternyata jauh lebih mudah untuk dilatih.
  • Pembelajaran mendalam: seperti disebutkan dalam jawaban lain, latih jaringan dalam satu lapisan pada satu waktu. Ini sebenarnya tidak menyelesaikan masalah menentukan jumlah unit per lapisan - seringkali ini masih ditetapkan dengan tangan atau validasi silang.

sumber
4

Seperti yang saya pahami puncak dari seni hari ini adalah "Pembelajaran Fitur Tanpa Pengawasan dan Pembelajaran Dalam". Singkatnya: jaringan sedang dilatih dengan cara yang tidak diawasi, setiap lapisan pada satu waktu:

Dov
sumber
apakah itu dimulai dengan jumlah neuron yang minimal (hanya input dan output)?
Artem Kaznatcheev
pembelajaran mendalam berisi berbagai metode untuk jaringan saraf dengan banyak lapisan tersembunyi. Saya tidak terbiasa dengan metode seperti itu yang menentukan jumlah neuron, tapi mungkin google scholar tahu lebih banyak ...
Ran
Afaik angka itu diperbaiki sebelumnya dalam semua metode kompetitif saat ini. Ini agak menjadi masalah karena ini berarti ada banyak parameter hiper. Untuk mengatasinya, James Bergstra baru-baru ini mengusulkan penggunaan Proses Gaussian untuk menemukan pengaturan hyper paramter terbaik9http: //people.fas.harvard.edu/~bergstra/files/pub/11_nips_hyperopt.pdf). Tetapi ini adalah semacam "lingkaran luar" yang mencoba berbagai pengaturan dengan cara yang cerdas.
Andreas Mueller
4

Sudah ada yang menyebut NEAT (Neural Evolution with Augmenting Topologies). Ada beberapa kemajuan dalam hal ini termasuk spesiasi dan HyperNEAT. HyperNEAT menggunakan jaringan 'meta' untuk mengoptimalkan bobot fenotipe yang terhubung sepenuhnya. Ini memberikan 'kesadaran spasial' jaringan yang sangat berharga dalam masalah pengenalan gambar dan tipe permainan papan. Anda juga tidak terbatas pada 2D. Saya menggunakannya dalam 1D untuk analisis sinyal dan 2D ke atas dimungkinkan tetapi menjadi berat pada persyaratan pemrosesan. Cari kertas karya Ken Stanley, dan ada grup di Yahoo. Jika Anda memiliki masalah yang dapat ditelusuri dengan jaringan, maka NEAT dan / atau HyperNEAT mungkin berlaku.


sumber
3

Ada makalah yang agak baru tentang topik ini: RP Adams, H. Wallach, dan Zoubin Ghahramani. Mempelajari struktur model grafis yang dalam. Ini sedikit di luar komunitas jaringan saraf biasa dan lebih pada sisi pembelajaran mesin. Makalah ini menggunakan inferensi Bayesian non-parametrik pada struktur jaringan.

Andreas Mueller
sumber