Bagaimana kernel diterapkan pada peta fitur untuk menghasilkan peta fitur lainnya?

44

Saya mencoba untuk memahami bagian konvolusi dari jaringan saraf convolutional. Melihat gambar berikut:

masukkan deskripsi gambar di sini

Saya tidak memiliki masalah memahami lapisan konvolusi pertama di mana kami memiliki 4 kernel yang berbeda (ukuran ), yang kami gabungkan dengan gambar input untuk mendapatkan 4 peta fitur.k×k

Yang tidak saya mengerti adalah lapisan konvolusi berikutnya, di mana kita beralih dari 4 peta fitur ke 6 peta fitur. Saya berasumsi kita memiliki 6 kernel di lapisan ini (akibatnya memberikan 6 fitur peta keluaran), tetapi bagaimana kernel ini bekerja pada 4 fitur peta yang ditunjukkan dalam C1? Apakah kernel 3-dimensi, atau 2-dimensi dan direplikasi di 4 fitur peta masukan?

utdiscant
sumber
1
Saya terjebak di tempat yang sama. Sayangnya, makalah Yann Lecun-s tidak menjelaskan hal itu juga - saya telah melalui beberapa pdf dan video beberapa hari terakhir dan semua orang sepertinya melewatkan bagian itu. Makalah Yann Lecun sebenarnya berbicara tentang 6 hingga 16 peta fitur dengan tabel pemetaan pada layer 2. Peta fitur output pertama mendapat input dari 0,1,2 input peta fitur. Tetapi peta fitur keluaran itu adalah 10 kali 10, peta fitur 3 input menjadi 14 kali 14. Jadi bagaimana cara kerjanya? Apakah Anda mengerti apa yang sedang terjadi? Apakah ini kernel 3-D? atau apakah itu rata-rata output dari lokasi * kernel (konvolusi)?
Run2

Jawaban:

18

Kernel adalah 3-dimensi, di mana lebar dan tinggi dapat dipilih, sedangkan kedalamannya sama dengan jumlah peta di lapisan input - secara umum.

Mereka tentu tidak 2-dimensi dan direplikasi di peta fitur input di lokasi 2D yang sama! Itu berarti kernel tidak akan dapat membedakan antara fitur inputnya di lokasi tertentu, karena kernel akan menggunakan satu dan bobot yang sama di seluruh peta fitur input!

Angelorf
sumber
5

Tidak perlu ada korespondensi satu-ke-satu antara layer dan kernel. Itu tergantung pada arsitektur tertentu. Angka yang Anda poskan menunjukkan bahwa dalam lapisan S2 Anda memiliki 6 peta fitur, masing-masing menggabungkan semua peta fitur dari lapisan sebelumnya, yaitu kemungkinan kombinasi fitur yang berbeda.

Tanpa lebih banyak referensi saya tidak bisa mengatakan banyak lagi. Lihat misalnya makalah ini

jpmuc
sumber
Saya melihat LeNet-5 secara khusus, dan menggunakan deeplearning.net/tutorial/lenet.html ini sebagai referensi saya. Tampaknya dari halaman itu, bahwa kernel adalah 3-dimensi, tetapi tidak 100% jelas bagi saya.
utdiscant
2
Anda perlu membaca makalah ini ( yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf ). Pada halaman 8 dijelaskan bagaimana lapisan yang berbeda terhubung. Seperti yang saya katakan, layer setiap fitur pada layer menggabungkan beberapa fitur dari layer sebelumnya di lokasi yang sama.
jpmuc
2
Tautannya sudah mati.
jul
2

Tabel 1 dan Bagian 2a dari Yann LeCun "Pembelajaran Berbasis Gradien yang Diterapkan pada Pengakuan Dokumen" menjelaskan hal ini dengan baik: http://yann.lecun.com/exdb/publis/pdf/lecun-01a.pdf Tidak semua wilayah konvolusi 5x5 adalah digunakan untuk menghasilkan lapisan konvolusional ke-2.

Travis Desell
sumber
0

Artikel ini dapat membantu: Memahami Konvolusi dalam Pembelajaran Mendalam oleh Tim Dettmers dari 26 Maret

Itu tidak benar-benar menjawab pertanyaan karena hanya menjelaskan lapisan konvolusi pertama, tetapi berisi penjelasan yang baik tentang intuisi dasar tentang konvolusi di CNN. Ini juga menggambarkan definisi konvolusi matematis yang lebih dalam. Saya pikir ini terkait dengan topik pertanyaan.

Anatoly Vasilyev
sumber
1
Selamat datang di situs ini. Kami mencoba membangun repositori permanen untuk informasi statistik berkualitas tinggi dalam bentuk pertanyaan & jawaban. Jadi, kami waspada terhadap jawaban tautan saja, karena tautannya. Bisakah Anda memposting kutipan lengkap & ringkasan informasi di tautan, kalau-kalau mati?
gung - Reinstate Monica
@ung, terima kasih atas pemberitahuannya, maaf karena salah paham konsepnya. Situasinya adalah: artikel ini tidak benar-benar menjawab pertanyaan, tetapi ketika saya sedang mencari intuisi dasar tentang CNN saya menemukan pertanyaan ini dan saya berharap dapat membantu dengan artikel ini kepada seseorang yang juga mencari intuisi dasar dan mendapatkan pertanyaan ini. Oke, lebih baik hapus saja ya? Terima kasih.
Anatoly Vasilyev
Saya pikir akan baik-baik saja untuk mengatakan, 'artikel ini dapat berfungsi sebagai bahan pertimbangan, tetapi tidak sepenuhnya menjawab pertanyaan', atau sesuatu seperti itu. Mungkin ada nilai di sini. Berikan kutipan lengkap, & berikan ringkasan informasi yang terkandung, jika tautannya mati.
gung - Reinstate Monica
Terima kasih atas informasi tambahannya. Bisakah Anda memberikan kutipan lengkap untuk makalah (penulis, tahun, judul, jurnal, dll) & ringkasan kontennya?
gung - Reinstate Monica
@ung ya, tentu saja. Tetapi sepertinya artikel ini hanya ada di blog ini, jadi saya tidak dapat menemukan informasi berguna lainnya tentang itu. Terima kasih telah memperjelas pandangan saya
Anatoly Vasilyev