Fitur diekstraksi dengan max pooling vs mean pooling

8

Dalam pembelajaran yang mendalam, dan ini adalah aplikasi untuk visi komputer, apakah mungkin untuk mengetahui fitur apa dari kedua jenis ekstrak pooling ini? misalnya apakah mungkin untuk mengatakan bahwa max pool mengekstraksi tepi? Bisakah kita mengatakan sesuatu yang serupa tentang pooling jahat?

PS merasa bebas untuk merekomendasikan jika stackoverflow lebih cocok.

sunting
sumber

Jawaban:

11

Saya tidak akan mengatakan fitur ekstrak kedua . Sebaliknya, itu adalah lapisan konvolusional yang membangun / mengekstrak fitur, dan lapisan penggabungan memampatkannya ke kesetiaan yang lebih rendah. Perbedaannya terletak pada cara kompresi terjadi, dan jenis kesetiaan apa yang dipertahankan:

  • Lapisan max-pool dikompresi dengan mengambil aktivasi maksimum dalam satu blok. Jika Anda memiliki blok dengan sebagian besar aktivasi kecil, tetapi sedikit aktivasi besar, Anda akan kehilangan informasi tentang aktivasi rendah. Saya menganggap ini sebagai mengatakan "fitur jenis ini terdeteksi di area umum ini".
  • Lapisan mean-pool mengkompres dengan mengambil aktivasi rata-rata dalam blok. Jika aktivasi besar diimbangi dengan aktivasi negatif, aktivasi terkompresi secara keseluruhan akan terlihat seperti tidak ada aktivasi sama sekali. Di sisi lain, Anda menyimpan beberapa informasi tentang aktivasi rendah pada contoh sebelumnya.
Matthew Drury
sumber
4

pendapat saya adalah bahwa penyatuan maksimal & rata-rata tidak ada hubungannya dengan jenis fitur, tetapi dengan terjemahan invarian.

Bayangkan belajar mengenali 'A' vs 'B' (tidak ada variasi dalam piksel A dan piksel B). Pertama di posisi tetap dalam gambar. Ini dapat dilakukan dengan regresi logistik (1 neuron): bobot akhirnya menjadi templat perbedaan A - B.

Sekarang apa yang terjadi jika Anda berlatih mengenali di berbagai lokasi dalam gambar. Anda tidak dapat melakukan ini dengan regresi logistik, menyapu gambar (yaitu mendekati lapisan convolutional dengan satu filter) dan memberi label semua sapuan gambar A atau B yang sesuai, karena belajar dari posisi yang berbeda mengganggu - secara efektif Anda mencoba mempelajari rata-rata AB sebagai A / B dilewatkan di filter Anda - tetapi ini hanya kabur.

dengan max pooling pembelajaran hanya dilakukan pada lokasi aktivasi maks (yang semoga berpusat pada surat). Saya tidak begitu yakin tentang penyatuan berarti - saya akan membayangkan bahwa lebih banyak pembelajaran (yaitu penyesuaian berat badan) dilakukan di lokasi aktivasi maksimal dan yang menghindari kabur) ...

Saya akan mendorong Anda untuk hanya mengimplementasikan jaringan yang sederhana dengan 2 kelas dan 1 filter untuk lapisan konvolusional, kemudian max / mean pooling dan 1 output node dan memeriksa bobot / kinerja.

seanv507
sumber