Geoffrey Hinton telah meneliti sesuatu yang dia sebut "teori kapsul" dalam jaringan saraf. Apa ini dan bagaimana cara kerjanya?
neural-networks
rcpinto
sumber
sumber
Jawaban:
Tampaknya belum diterbitkan; online terbaik yang tersedia adalah slide ini untuk ceramah ini . (Beberapa orang mereferensikan pembicaraan sebelumnya dengan tautan ini , tetapi sayangnya itu rusak pada saat menulis jawaban ini.)
Kesan saya adalah bahwa ini merupakan upaya untuk memformalkan dan mengabstraksi pembuatan subnetwork di dalam jaringan saraf. Yaitu, jika Anda melihat jaringan saraf standar, lapisan-lapisan sepenuhnya terhubung (yaitu, setiap neuron di lapisan 1 memiliki akses ke setiap neuron di lapisan 0, dan itu sendiri diakses oleh setiap neuron di lapisan 2). Tapi ini jelas tidak berguna; salah satu mungkin malah memiliki, katakanlah, n tumpukan paralel lapisan (yang 'kapsul') bahwa setiap mengkhususkan diri pada beberapa tugas yang terpisah (yang mungkin sendiri membutuhkan lebih dari satu layer untuk menyelesaikan berhasil).
Jika saya membayangkan hasilnya dengan benar, topologi grafik yang lebih canggih ini sepertinya adalah sesuatu yang dapat dengan mudah meningkatkan efektivitas dan kemampuan interpretasi dari jaringan yang dihasilkan.
sumber
Untuk melengkapi jawaban sebelumnya: ada makalah tentang ini yang kebanyakan tentang mempelajari kapsul tingkat rendah dari data mentah, tetapi menjelaskan konsepsi Hinton tentang kapsul di bagian pengantar: http://www.cs.toronto.edu/~ fritz / absps / transauto6.pdf
Perlu juga dicatat bahwa tautan ke pembicaraan MIT dalam jawaban di atas tampaknya berfungsi kembali.
Menurut Hinton, "kapsul" adalah subset neuron dalam lapisan yang menampilkan "parameter instantiasi" yang menunjukkan apakah suatu entitas hadir dalam domain terbatas dan vektor "parameter pose" yang menentukan pose entitas relatif terhadap versi kanonik.
Output parameter oleh kapsul tingkat rendah dikonversi menjadi prediksi untuk pose entitas yang diwakili oleh kapsul tingkat tinggi, yang diaktifkan jika prediksi setuju dan output parameter mereka sendiri (parameter pose tingkat lebih tinggi menjadi rata-rata prediksi yang diterima ).
Hinton berspekulasi bahwa deteksi kebetulan berdimensi tinggi ini adalah untuk apa organisasi mini-kolom di otak. Tujuan utamanya tampaknya menggantikan max pooling yang digunakan dalam jaringan konvolusional, di mana lapisan yang lebih dalam kehilangan informasi tentang pose.
sumber
Jaringan kapsul mencoba untuk meniru pengamatan Hinton tentang otak manusia pada mesin. Motivasi berasal dari fakta bahwa jaringan saraf membutuhkan pemodelan hubungan spasial yang lebih baik dari bagian-bagian. Alih-alih memodelkan ko-eksistensi, mengabaikan posisi relatif, jaring kapsul mencoba untuk memodelkan transformasi relatif global dari sub-bagian yang berbeda di sepanjang hierarki. Ini adalah trade-off eqivarians vs invarian, seperti yang dijelaskan di atas oleh orang lain.
Oleh karena itu, jaringan ini mencakup kesadaran sudut pandang / orientasi dan merespons secara berbeda terhadap orientasi yang berbeda. Properti ini membuat mereka lebih diskriminatif, sementara berpotensi memperkenalkan kemampuan untuk melakukan estimasi pose karena fitur ruang laten mengandung interpretable, menimbulkan detail spesifik.
Semua ini dilakukan dengan memasukkan lapisan bersarang yang disebut kapsul di dalam lapisan, alih-alih menggabungkan lapisan lain dalam jaringan. Kapsul ini dapat memberikan keluaran vektor alih-alih skalar satu per node.
Kontribusi penting dari makalah ini adalah routing dinamis yang menggantikan standar max-pooling dengan strategi yang cerdas. Algoritma ini menerapkan pengelompokan mean-shift pada output kapsul untuk memastikan bahwa output hanya dikirim ke induk yang sesuai pada layer di atas.
Penulis juga memasangkan kontribusi dengan kehilangan margin dan kehilangan rekonstruksi, yang secara bersamaan membantu dalam mempelajari tugas dengan lebih baik dan menunjukkan hasil mutakhir pada MNIST.
Makalah terbaru bernama Dynamic Routing Between Capsules dan tersedia di Arxiv: https://arxiv.org/pdf/1710.09829.pdf .
sumber
Berdasarkan pada makalah mereka, Routing Dinamis antar Kapsul
sumber
Salah satu keuntungan utama dari jaringan saraf konvolusional adalah keanehannya pada terjemahan. Namun invarian ini datang dengan harga dan itu, itu tidak mempertimbangkan bagaimana fitur yang berbeda terkait satu sama lain. Misalnya, jika kita memiliki gambar wajah, CNN akan mengalami kesulitan membedakan hubungan antara fitur mulut dan fitur hidung. Max pooling layers adalah alasan utama untuk efek ini. Karena ketika kita menggunakan max pooling layer, kita kehilangan lokasi yang tepat dari mulut dan kebisingan dan kita tidak bisa mengatakan bagaimana mereka berhubungan satu sama lain.
Kapsul mencoba untuk tetap memanfaatkan CNN dan memperbaiki kelemahan ini dengan dua cara;
Dengan kata lain, kapsul memperhitungkan keberadaan fitur khusus yang kita cari seperti mulut atau hidung. Properti ini memastikan bahwa kapsul adalah terjemahan yang sama dengan CNN.
sumber