Alasan untuk gambar persegi dalam pembelajaran yang mendalam

12

Sebagian besar model pembelajaran mendalam seperti VGG, ResNet, dll. Memerlukan gambar persegi sebagai input, biasanya dengan ukuran piksel .224x224

Apakah ada alasan mengapa input harus memiliki bentuk yang sama, atau dapatkah saya membangun model convnet dengan mengatakan juga (jika saya ingin melakukan pengenalan wajah misalnya dan saya memiliki gambar potret)?100x200

Apakah ada peningkatan manfaat dengan ukuran piksel yang lebih besar, katakanlah ?512x512

spore234
sumber

Jawaban:

10

Tidak ada persyaratan untuk dimensi piksel tertentu untuk jaringan saraf konvolusional berfungsi normal. Kemungkinan nilai telah dipilih karena alasan pragmatis - seperti kompromi antara menggunakan detail gambar vs jumlah parameter dan ukuran set pelatihan yang diperlukan.

Selain itu, jika data sumber memiliki berbagai rasio aspek yang berbeda, beberapa potret, beberapa lanskap, dengan objek target biasanya di tengah, maka mengambil petak persegi dari tengah bisa menjadi kompromi yang masuk akal.

Saat Anda menambah ukuran gambar input, Anda juga akan meningkatkan jumlah noise dan varians yang perlu ditangani jaringan untuk memproses input itu. Itu bisa berarti lebih banyak lapisan - baik convolutional dan pooling. Ini juga bisa berarti bahwa Anda memerlukan lebih banyak contoh pelatihan, dan tentu saja setiap contoh pelatihan akan lebih besar. Bersama-sama, ini meningkatkan sumber daya komputasi yang Anda butuhkan untuk menyelesaikan pelatihan. Namun, jika Anda dapat mengatasi persyaratan ini, ada kemungkinan bahwa Anda akan mendapatkan model yang lebih akurat, untuk tugas apa pun di mana piksel tambahan dapat membuat perbedaan.

Salah satu aturan praktis yang mungkin untuk menentukan apakah Anda menginginkan resolusi yang lebih tinggi adalah jika, untuk tujuan jaringan Anda, seorang pakar manusia dapat menggunakan resolusi tambahan dan melakukan tugas dengan lebih baik. Ini mungkin terjadi dalam sistem regresi, di mana jaringan memperoleh beberapa jumlah numerik dari gambar - misalnya untuk pengenalan wajah dengan mengekstraksi biometrik seperti jarak antar fitur wajah. Mungkin juga diinginkan untuk tugas-tugas pemrosesan gambar seperti masking otomatis - hasil canggih untuk tugas-tugas ini mungkin masih beresolusi lebih rendah daripada gambar komersial tempat kami ingin menerapkannya dalam praktik.

Neil Slater
sumber