Dalam hal filter CNN diterapkan pada tambalan kecil dari suatu gambar di setiap lokasi yang memungkinkan (yang juga menjadikannya terjemahan yang invarian).
Lapisan tersembunyi Autoencoder mendapatkan seluruh gambar (output dari lapisan sebelumnya) sebagai inputnya, yang sepertinya bukan ide yang bagus untuk gambar: biasanya hanya fitur spasial lokal yang berkorelasi, sedangkan yang lebih jauh memiliki korelasi yang lebih kecil. Juga, neuron-neuron tersembunyi ini bukan terjemahan yang invarian.
Dengan demikian, CNN seperti JST biasa dengan jenis regularisasi khusus, yang mengeluarkan sebagian besar bobot untuk memanfaatkan lokalitas.