pendapat saya adalah bahwa penyatuan maksimal & rata-rata tidak ada hubungannya dengan jenis fitur, tetapi dengan terjemahan invarian.
Bayangkan belajar mengenali 'A' vs 'B' (tidak ada variasi dalam piksel A dan piksel B). Pertama di posisi tetap dalam gambar. Ini dapat dilakukan dengan regresi logistik (1 neuron): bobot akhirnya menjadi templat perbedaan A - B.
Sekarang apa yang terjadi jika Anda berlatih mengenali di berbagai lokasi dalam gambar. Anda tidak dapat melakukan ini dengan regresi logistik, menyapu gambar (yaitu mendekati lapisan convolutional dengan satu filter) dan memberi label semua sapuan gambar A atau B yang sesuai, karena belajar dari posisi yang berbeda mengganggu - secara efektif Anda mencoba mempelajari rata-rata AB sebagai A / B dilewatkan di filter Anda - tetapi ini hanya kabur.
dengan max pooling pembelajaran hanya dilakukan pada lokasi aktivasi maks (yang semoga berpusat pada surat). Saya tidak begitu yakin tentang penyatuan berarti - saya akan membayangkan bahwa lebih banyak pembelajaran (yaitu penyesuaian berat badan) dilakukan di lokasi aktivasi maksimal dan yang menghindari kabur) ...
Saya akan mendorong Anda untuk hanya mengimplementasikan jaringan yang sederhana dengan 2 kelas dan 1 filter untuk lapisan konvolusional, kemudian max / mean pooling dan 1 output node dan memeriksa bobot / kinerja.