Apa masalah dimensi hopping dalam pembelajaran mesin (terjadi dalam jaringan saraf convolutional dan pengenalan gambar)? Saya sudah googled tentang hal itu tetapi yang saya dapatkan hanyalah informasi tentang Fisika dari deformasi bentuk material. Akan lebih bermanfaat bagi saya jika seseorang menjelaskannya dengan contoh yang terkait dengan pembelajaran mesin. Adakah yang bisa membantu saya dengan ini atau mengarahkan saya ke sumber daya yang bisa?
Sejauh yang saya pahami masalahnya adalah sebagai berikut: Dalam pengenalan gambar, input ke jaringan Anda bisa berupa piksel (skala abu-abu atau hanya 1 dan 0 untuk hitam dan putih). Jika Anda ingin, misalnya mengenali angka tulisan tangan, sangat sulit untuk hanya bekerja dengan nilai-nilai seperti itu karena Anda tidak pernah tahu di mana tepatnya angka (yaitu nilai hitam) akan berada.
Apakah piksel 140 hitam atau 142 hitam? Dalam kedua kasus itu bisa jadi tiga. Dalam contoh umur / berat, input ini didefinisikan dengan baik. Fitur 2 adalah berat. Fitur 3 adalah usia. "Dimensi" ini seharusnya tidak "melompat" dalam dataset Anda.
Jadi: Dalam pelatihan gambar Anda, "bertiga" atau "mobil" atau "rumah" harus diakui independen dari lokasi mereka dalam gambar, yaitu nilai piksel, yaitu vektor fitur / input, yaitu dimensi yang berlawanan dengan yang ditentukan dengan jelas input seperti data pasien.
Bagaimana Anda mengatasi ini dalam pengenalan gambar? Anda menggunakan trik tambahan, misalnya konvolusi.
sumber
Saya membaca jawaban sebelumnya, dan komentar Neil Slater untuk posting Emre, disalin lagi di bawah ini, menyentuh kuku. "Dimension hopping" adalah istilah yang dibuat oleh Dr. Hinton tentang ketenaran pelopor pembelajaran mesin dalam konteks sudut pandang. Mengutip Dr. Hinton "Jadi, biasanya bayangkan dimensi input sesuai dengan piksel, dan, jika suatu objek bergerak di dunia dan Anda tidak menggerakkan mata Anda untuk mengikutinya, informasi tentang objek tersebut akan muncul pada piksel yang berbeda." Usia dan berat adalah dimensi input yang tidak mudah bingung. Dr. Hinton menggunakan ini jelas TIDAK kemungkinan dimensi dari situasi usia dan berat pasien yang berarti kita pasti akan dapat menemukan dan memperbaiki kesalahan di antara tipe data ini (Sulit untuk tidak memperhatikan bahwa kebanyakan orang dewasa berusia di bawah 100 tahun dan lebih dari 100 pound). Masalah yang mungkin timbul dari dimensi hopping, yang ditangani oleh Dr. Hinton, adalah piksel dapat dipindahkan karena kita memiliki sudut pandang yang berbeda (mis. Objek dapat bergerak atau kita melihatnya dari sudut yang berbeda). Jaringan neural linier tidak akan dapat mendeteksi ini, sedangkan jaringan saraf convolutional dengan desain akan.
"Contoh usia seharusnya menyoroti dataset yang tidak memiliki dimensi-hopping. Usia dan berat tidak" melompat "atau menukar nilai secara acak di antara contoh - mereka tidak dapat dipertukarkan dan contoh ini menunjukkan betapa anehnya itu (dan bagaimana sulitnya akan membuat tugas-tugas sederhana seperti regresi linier) .Nilai pixel dalam gambar (dan data serupa dalam banyak tugas pemrosesan sinyal) melakukan pertukaran atau perpindahan dengan mudah karena sifat masalahnya. - Neil Slater 29 Mei 16 'pukul 18:01 "
sumber
Penjelasan langsung dari kursus Hinton tentang Jaringan Saraf untuk Pembelajaran Mesin ....
"Dimensi melompat terjadi ketika seseorang dapat mengambil informasi yang terkandung dalam dimensi beberapa input, dan memindahkan ini di antara dimensi tanpa mengubah target . Contoh kanonik mengambil gambar digit tulisan tangan dan menerjemahkannya di dalam gambar. Dimensi yang mengandung "tinta" sekarang berbeda (telah dipindahkan ke dimensi lain), namun label yang kami tetapkan untuk digit tersebut tidak berubah. Perhatikan bahwa ini bukan sesuatu yang terjadi secara konsisten di seluruh dataset, yaitu kita mungkin memiliki dataset yang berisi dua digit tulisan tangan di mana satu adalah versi terjemahan yang lain, namun ini masih tidak mengubah label yang sesuai dari digit tersebut. "
sumber
Berharap hanya tentang masalah dengan bagian gambar atau piksel bergerak dalam dimensi (sebagian besar) dan kadang-kadang menjadi redup lainnya (bidang reseptif berbeda) tetapi output tetap sama.
Masalah ini ditangani dengan invarian atau kesetaraan dan sepertinya contoh berat dan usia adalah cara mudah untuk menyatakan. Misalkan jika kita mengetahui berat badan dan usia ini, kita akan dengan mudah melakukan perubahan pada algo dan mendapatkan hasil yang benar. Tetapi seperti data / informasi hopping, gambar hopping juga terjadi, jika kita menganggap '4' dan '4' menggeser beberapa piksel ke kiri menjadi kelas yang berbeda yang memiliki target berbeda.
Dengan Penerjemahan Invarian atau penyetaraan yang lebih baik, filter atau pergerakan ini tidak banyak masalah meskipun meningkatkan kompleksitas dan dengan biaya membuang informasi, seperti lokasi.
Tolong beri tahu saya jika Anda perlu kejelasan lebih lanjut.
sumber