Menyesuaikan arsitektur NN secara dinamis: menemukan yang tidak perlu?

9

Saya memulai perjalanan PhD saya, dan tujuan akhir yang saya tetapkan sebelumnya adalah mengembangkan JST yang akan memantau lingkungan tempat mereka bekerja dan secara dinamis menyesuaikan arsitektur mereka dengan masalah yang dihadapi. Implikasi yang jelas adalah temporalitas data: jika kumpulan data tidak kontinu dan tidak berubah seiring waktu, mengapa menyesuaikan sama sekali?

Pertanyaan besarnya adalah: dengan meningkatnya pembelajaran mendalam baru-baru ini, apakah ini masih merupakan topik yang relevan? Apakah FFNN memiliki peluang untuk menemukan diri mereka ceruk dalam masalah drift konsep?

Saya takut membebani utas dengan terlalu banyak pertanyaan, tetapi pertanyaan ini tidak sepenuhnya di luar topik: Saya mengetahui RNN, tetapi saya memiliki pengalaman yang terbatas (ok, tidak ada, atau murni teoretis) dengan mereka; Saya percaya adaptasi arsitektur dinamis harus menjadi topik yang relevan dalam konteks RNNs. Pertanyaannya adalah, apakah sudah dijawab, dan apakah saya akan menemukan kembali kemudi?

PS Cross-diposting ke MetaOptimize

anna-earwen
sumber
Ketika Anda mengatakan "sesuaikan arsitekturnya", maksud Anda parameter (bobot, bias) atau memperbarui struktur aktual jaringan (simpul tersembunyi, fungsi aktivasi, konektivitas, dll.)? Juga, dalam banyak aplikasi pembelajaran yang dalam, hasil akhirnya ADALAH jaringan umpan maju, hanya satu dengan bobot yang diinisialisasi oleh beberapa proses tanpa pengawasan.
alto
@ alto, saya mengacu pada struktur NN yang sebenarnya - jumlah unit tersembunyi dan (mungkin) lapisan - saya yakin itu dapat diimplementasikan pada tingkat kompleksitas yang berbeda. Saya merasa bahwa saya harus mulai membaca tentang pembelajaran yang mendalam jika saya ingin berhasil.
anna-earwen
@ anna-earwen topik PhD yang menarik, bagaimana kabarnya, semua publikasi belum?
Dikran Marsupial
1
@Dikran Marsupial, saya akan segera menuju ke IJCNN 2014 untuk berbicara tentang bagaimana dan mengapa PSO gagal melatih NN dimensi tinggi. Jadi jawabannya adalah ya dan tahu: Saya mengambil jalan memutar besar dari vektor penelitian asli, dan saya ingin tahu apakah saya masih akan kembali ke arsitektur yang dapat disesuaikan. Hanya waktu dan hasil empiris yang akan membuktikan!
anna-earwen
Saya akan mencermati hal itu dalam proses - memahami mengapa hal-hal tidak berfungsi adalah sesuatu yang perlu ilmu lebih banyak (dan studi empiris yang solid).
Dikran Marsupial

Jawaban:

6

Cascade-Correlation Neural Networks menyesuaikan struktur mereka dengan menambahkan node tersembunyi selama proses pelatihan, jadi ini mungkin tempat untuk memulai. Sebagian besar pekerjaan lain yang pernah saya lihat yang secara otomatis menyesuaikan jumlah lapisan, jumlah node tersembunyi, dll, dari jaringan saraf menggunakan algoritma evolusioner.

Sayangnya, pekerjaan ini di luar daerah saya sehingga saya tidak bisa merekomendasikan makalah atau referensi tertentu untuk membantu Anda memulai. Saya dapat memberitahu Anda bahwa saya belum melihat pekerjaan yang mencoba untuk bersama-sama mengoptimalkan struktur dan parameter jaringan secara bersamaan dalam komunitas pembelajaran yang mendalam. Bahkan, sebagian besar arsitektur pembelajaran yang dalam didasarkan pada dengan rakus mempelajari satu lapisan pada satu waktu, sehingga menjadikan pembelajaran online jaringan saraf yang dalam sebagai area yang tidak tersentuh (karya Martens dkk. Tentang Pengoptimalan Bebas Goni menjadi pengecualian).

alto
sumber
Terima kasih banyak, Anda sudah memberi saya informasi yang cukup untuk mulai menggali emas. :)
anna-earwen
2

Alasan lain untuk mempertimbangkan mengembangkan pendekatan baru untuk jaringan saraf konstruktif (seperti algoritma CC @alto yang disebutkan) adalah dalam aplikasi di luar statistik . Secara khusus, dalam ilmu saraf teoretis dan ilmu kognitif, jaringan saraf konstruktif sering digunakan karena kesamaan metaforis dengan perkembangan dan neurogenesis. Untuk contoh penggunaan kaskade-korelasi yang banyak untuk ini, lihatlah publikasi Thomas R. Shultz . Sayangnya, pendekatan korelasi kaskade adalah biologis tidak realistis dan jika Anda memiliki tikungan ilmu saraf, perlu untuk mempertimbangkan bagaimana NN baru dengan arsitektur yang dapat disesuaikan dapat digunakan sebagai model pengembangan dan / atau neurogenesis yang lebih baik.

Artem Kaznatcheev
sumber
1
Terima kasih, Artem! Bahkan, saya lebih dari seorang ilmuwan komputer murni daripada yang lain, jadi pengetahuan saya tentang ilmu saraf dan congnitive kurang dari langka. Kedengarannya menyenangkan, dan karena semua jalan masih terbuka, saya juga bisa menyelidiki ini - setidaknya sampai batas tertentu. Saat ini saya sangat tertarik pada aplikasi untuk masalah teknik nyata dan analisis data yang dapat bekerja untuk pembandingan.
anna-earwen