Saat ini saya sedang berupaya menciptakan kembali hasil dari makalah ini . Dalam makalah mereka menggambarkan metode untuk menggunakan CNN untuk ekstraksi fitur, dan memiliki model akustik yaitu Dnn-hmm dan dipra-preline menggunakan RBM.
Bagian III ayat A menyatakan berbagai cara input data dapat direpresentasikan. Saya memutuskan untuk secara vertikal menumpuk plot spektrum dari delta statis, delta dan delta.
Makalah ini kemudian menjelaskan bagaimana seharusnya jaringan. Mereka menyatakan bahwa mereka menggunakan jaringan convolutional, tetapi tidak ada tentang struktur jaringan ?. Lebih jauh lagi apakah jaringan selalu disebut sebagai lapisan convolutional? yang saya yakin saya melihat perbedaan dibandingkan dengan jaringan neural convolutional network biasa (cnn).
Makalah ini menyatakan tentang perbedaan:
(dari bagian III ayat B)
Lapisan konvolusi berbeda dari lapisan tersembunyi standar yang terhubung sepenuhnya dalam dua aspek penting. Pertama, setiap unit konvolusional hanya menerima input dari area input lokal. Ini berarti bahwa setiap unit mewakili beberapa fitur dari wilayah input lokal. Kedua, unit lapis konvolusi sendiri dapat diatur ke dalam sejumlah peta fitur, di mana semua unit dalam peta fitur yang sama berbagi bobot yang sama tetapi menerima input dari lokasi berbeda dari lapisan bawah.
Hal lain yang saya pikirkan adalah apakah makalah ini benar-benar menyatakan berapa banyak parameter output yang diperlukan untuk memberi makan model akustik dnn-hmm. Sepertinya saya tidak dapat mendekodekan jumlah filter, ukuran filter .. secara umum rincian jaringan?
sumber
Jawaban:
Tampaknya lapisan konvolusional persis sama dengan lapisan konvolusional biasa. Dari makalah mereka, mereka berpendapat bahwa istilah "lapisan CNN" biasanya mengacu pada lapisan konvolusional diikuti oleh lapisan penyatuan. Dalam upaya untuk mengurangi kebingungan, mereka menyebut bagian konvolusional sebagai "lapisan konvolusi" dan bagian penyatuan sebagai "kumpulan penyatuan":
Ironisnya, ini telah meningkatkan kebingungan, mengarah ke pos ini. Pada waktu itu saya kira tidak lazim memiliki beberapa lapisan konvolusional berturut-turut sebelum lapisan penggabungan, tetapi kita sering melihat ini dalam arsitektur modern.
Untuk menjawab pertanyaan Anda yang lain tentang struktur jaringan; mereka menyatakan struktur jaringan yang mereka gunakan di bagian Eksperimen (Bagian VB). Untuk mudah-mudahan mengurangi kebingungan, saya telah mengganti kata "ply" dengan "layer":
sumber