CATATAN: Saya melakukan perhitungan ini secara spekulatif, sehingga beberapa kesalahan mungkin telah merayap masuk. Mohon informasikan kesalahan tersebut sehingga saya dapat memperbaikinya.
Secara umum di CNN mana pun, waktu pelatihan maksimum adalah Back-Propagation of errors pada Fully Connected Layer (tergantung pada ukuran gambar). Juga memori maksimum juga ditempati oleh mereka. Berikut ini adalah slide dari Stanford tentang parameter VGG Net:
Jelas Anda dapat melihat lapisan yang terhubung penuh berkontribusi sekitar 90% dari parameter. Jadi memori maksimum ditempati oleh mereka.
( 3 ∗ 3 ∗ 3 )( 3 ∗ 3 ∗ 3 )224 ∗ 224224 ∗ 224 ∗ ( 3 ∗ 3 ∗ 3 )64224 ∗ 22464 ∗ 224 ∗ 224 ∗ ( 3 ∗ 3 ∗ 3 ) ≈ 87 ∗ 106
56 ∗ 56 ∗ 25656 ∗ 56( 3 ∗ 3 ∗ 256 )56 ∗ 56256 ∗ 56 ∗ 56 ∗ ( 3 ∗ 3 ∗ 256 ) ≈ 1850 ∗ 106
s t r i de = 1
c h a n n e l so u t p u t∗ ( p i x e l O u t p u th e i gjam t* P i x e l O u t p u tw i dt h)∗ ( fi l t e rh e i gjam t∗ fi l t e rw i dt h∗ c h a n n e l si n p u t)
Berkat GPU yang cepat kami dapat dengan mudah menangani perhitungan besar ini. Tetapi dalam lapisan FC seluruh matriks perlu dimuat yang menyebabkan masalah memori yang umumnya bukan lapisan konvolusional, sehingga pelatihan lapisan konvolusional masih mudah. Semua ini harus dimuat dalam memori GPU itu sendiri dan bukan RAM CPU.
Juga di sini adalah bagan parameter AlexNet:
Dan inilah perbandingan kinerja berbagai arsitektur CNN:
Saya sarankan Anda memeriksa CS231n Lecture 9 oleh Stanford University untuk lebih memahami sudut dan celah arsitektur CNN.