Jadi saya mencoba melakukan pretraining pada gambar manusia menggunakan jaring konvolusional. Saya membaca makalah ( Paper1 dan Paper2 ) dan tautan stackoverflow ini , tapi saya tidak yakin saya mengerti struktur jaring (tidak didefinisikan dengan baik di koran).
Pertanyaan:
Saya dapat meminta input saya diikuti oleh layer noise diikuti oleh layer conv, diikuti oleh layer pooling - setelah itu - apakah saya menghapus pool sebelum saya memberikan output (yang sama dengan gambar input saya)?
Katakanlah saya memiliki beberapa (135.240) gambar. Jika saya menggunakan 32, (12,21) kernel, diikuti oleh (2,2) pooling, saya akan berakhir dengan 32 (62, 110) fitur peta. Sekarang apakah saya membatalkan pengumpulan untuk mendapatkan 32 (124, 220) peta fitur dan kemudian meratakannya? sebelum memberikan lapisan output (135.240) saya?
Jika saya memiliki beberapa lapisan conv-pool seperti itu, haruskah saya melatih mereka satu per satu - seperti dalam autoencoder denoised bertumpuk? Atau - dapatkah saya memiliki sesuatu seperti input-conv-pool-conv-pool-conv-pool-output (output sama dengan input)? Dalam hal itu, bagaimana cara pooling, depooling seharusnya dikelola? Haruskah saya menghapus pool pada layer pool terakhir sebelum output? Dan lagi - apa yang harus menjadi faktor ukuran dari de-pooling itu? Apakah niat untuk membawa fitur peta kembali ke bentuk input?
Haruskah saya memperkenalkan lapisan kebisingan setelah setiap lapisan conv-pool-depool?
Dan kemudian ketika fine tuning - apakah saya seharusnya menghapus layer de-pooling dan membiarkan sisanya sama. Atau haruskah saya menghapus lapisan kebisingan dan lapisan de-pooling
Adakah yang bisa mengarahkan saya ke url / kertas yang telah merinci arsitektur seperti auto encoder convolutional yang ditumpuk untuk melakukan pelatihan pra pada gambar?
Saya juga telah mencari model yang sepenuhnya dijelaskan dari Autoencoder Konvolusional Stacked.
Saya menemukan tiga arsitektur yang berbeda. Saya masih mempelajarinya dan saya pikir ini mungkin membantu orang lain yang juga mulai menjelajahi CAE. Referensi lebih lanjut untuk makalah atau implementasi akan sangat membantu.
Lapisan (konvolusi) __ x_times -> (deconvolve) __ x_times,
dan dapatkan ukuran yang sama dengan input.
sumber
ASK QUESTION
di bagian atas halaman & tanyakan di sana, maka kami dapat membantu Anda dengan baik. Karena Anda baru di sini, Anda mungkin ingin mengikuti tur kami , yang memiliki informasi untuk pengguna baru.Saya tidak berpikir metode pelatihan layer-wISE benar. Sebagai contoh, arsitektur auto-encoder convolutional adalah:
input-> conv-> max_poo-> de_max_pool-> de_conv-> output.
Ini adalah auto-encoder, dan harus dilatih dengan seluruh arsitektur. Selain itu, tidak ada kriteria ketat apakah satu auto-encoder konvolusional memerlukan kumpulan dan penghapusan. biasanya, satu pool tetapi tanpa un_pool. Berikut ini adalah perbandingan eksperimental dengan tidak adanya pool dan un_pool.
https://arxiv.org/pdf/1701.04949.pdf
sumber