Apa itu "VGG54" dan "VGG22" yang berasal dari CNN VGG19?

Dalam makalah Photo-Realistic Single Image Resolusi Super Menggunakan Jaringan Generatif Adversarial oleh Christian Ledig et al., Jarak antara gambar (digunakan dalam fungsi kehilangan) dihitung dari peta fitur yang diekstraksi dari jaringan VGG19. Dua yang digunakan dalam artikel ini (agak membingungkan) disebut VGG22 dan VGG54.

Apa saja peta fitur ini?

Apa arti sebutan "22" dan "54"?

deep-learning cnn gan Lafayette
sumber

19 adalah jumlah lapisan. Mungkin sisanya berarti sama?

Alex

Jika hanya sesederhana itu ... ;-) Ini adalah sebutan pemetaan dari VGG19, bukan jaringan sendiri.

Lafayette

Saya tidak pernah membaca koran. Ini adalah hal pertama yang terlintas dalam pikiran ketika saya melihat akronimnya.

Alex

Asumsi Anda memang masuk akal, tetapi mereka mengatakan bahwa itu tidak terjadi, hanya jaringan VGG19 yang digunakan.

Lafayette

Jawaban:

Membaca artikel, sepertinya mereka mendefinisikan VGG54 sebagai kerugian yang dihitung dari jarak euclidean antara $\phi_{5,4}$ peta fitur yang berasal dari gambar resolusi tinggi dan rendah menggunakan jaringan VGG19. Dimana $\phi_{i,j}$ didefinisikan sebagai " peta fitur yang diperoleh oleh konvolusi ke-j (setelah aktivasi) dan sebelum lapisan ke-max-ke-20 dalam jaringan VGG19 ".

Carlos S. Na
sumber

Saya berasumsi hal yang sama berlaku untuk VGG22 - yaitu, kerugian yang dihitung dari ,22,2. Apakah itu benar?

Lafayette

Itu benar :)

Carlos S. Na

Bisakah Anda jelaskan pada "peta fitur yang diperoleh oleh konvolusi ke-j (setelah aktivasi) dan sebelum lapisan ke-i ke-ke-8 dalam jaringan VGG19"?

ϕ_{5, 4}

$\phi_{5,4}$ cara

4^{t h}

$4^{th}$ lapisan sebelumnya

5^{t h}

$5^{th}$ lapisan max-pooling kan? Tapi

4^{t h}

$4^{th}$ Lapisan memiliki begitu banyak filter (saya pikir 512). Jadi kita akan memiliki 512 ruang fitur. Yang mana yang harus dipilih? Juga apa artinya "setelah aktivasi"?

Nagabhushan SN