Saya tak sabar untuk mendaftar dalam MSc pemrosesan Sinyal dan Gambar, atau mungkin Visi Komputer (saya belum memutuskan), dan pertanyaan ini muncul.
Kekhawatiran saya adalah, karena pembelajaran yang mendalam tidak perlu ekstraksi fitur dan hampir tidak ada input pra-pemrosesan, apakah itu membunuh pemrosesan gambar (atau pemrosesan sinyal secara umum)?
Saya bukan ahli dalam pembelajaran mendalam, tetapi tampaknya bekerja dengan sangat baik dalam tugas-tugas pengenalan dan klasifikasi mengambil gambar secara langsung, bukan vektor fitur seperti teknik lainnya.
Apakah ada kasus di mana pendekatan ekstraksi + klasifikasi fitur tradisional akan lebih baik, memanfaatkan teknik pemrosesan gambar, atau apakah ini sekarat karena pembelajaran yang mendalam?
Jawaban:
Posting ini telah banyak diperbarui. Di atas, Anda dapat melihat pembaruan tautan. Di bawah, variasi pada jawaban awal. Untuk versi singkatnya: keberhasilan jaringan saraf konvolusional dan pembelajaran mendalam terlihat seperti semacam revolusi Galilea. Untuk sudut pandang praktis, pemrosesan sinyal klasik atau visi komputer sudah mati ... asalkan Anda memiliki cukup data berlabel, tidak terlalu peduli dengan kegagalan klasifikasi yang jelas ( cacat yang dalam ), memiliki energi tak terbatas untuk menjalankan tes tanpa memikirkan jejak karbon , dan jangan ganggu penjelasan rasional. Bagi yang lain, ini membuat kami memikirkan kembali semua yang kami lakukan sebelumnya: ekstraksi fitur, optimisasi (lih. Kolega saya J.-C. Pekerjaan pesquet pada Struktur Jaringan Neural Dalam Memecahkan Ketimpangan Ketimpangan Variasional), invarian, kuantifikasi, dll. Dan penelitian yang sangat menarik muncul dari itu, semoga mengejar dengan prinsip-prinsip yang beralasan kuat dan kinerja serupa.
Tautan yang diperbarui:
Referensi pembelajaran mendalam "loncatan" pada pemrosesan sinyal / gambar standar dapat ditemukan di bagian bawah. Michael Elad baru saja menulis Deep, Deep Trouble: Dampak Deep Learning pada Pemrosesan Gambar, Matematika, dan Kemanusiaan (SIAM News, 2017/05), kutipan:
Tribun ini menarik, karena menunjukkan pergeseran dari "pemrosesan gambar" tradisional, mencoba memodelkan / memahami data, ke bidang kebenaran, tanpa begitu banyak wawasan.
Domain ini berkembang cukup cepat. Ini tidak berarti itu berkembang dalam arah yang disengaja atau konstan. Tidak benar atau salah. Tapi pagi ini, saya mendengar pepatah berikut (atau apakah ini lelucon?):
Ini adalah usaha saya yang sangat singkat: pembelajaran yang mendalam dapat memberikan hasil yang canggih, tetapi orang tidak selalu mengerti mengapa , dan bagian dari pekerjaan ilmuwan kami tetap menjelaskan mengapa sesuatu bekerja, apa isi dari sepotong data , dll.
Pembelajaran mendalam membutuhkan basis data yang sangat luas. Setiap kali Anda mengerjakan kerajinan pada gambar tunggal atau tunggal (yaitu tanpa basis data yang besar di belakang), terutama di tempat-tempat yang tidak mungkin menghasilkan "gambar tag berbasis pengguna gratis" (dalam set komplementer dari set " kucing lucu bermain game dan wajah ") , Anda dapat tetap berpegang pada pemrosesan gambar tradisional untuk sementara waktu, dan untuk keuntungan. Tweet baru - baru ini merangkum bahwa:
Jika mereka terbunuh (yang saya ragu dengan pemberitahuan jangka pendek), mereka belum mati. Jadi setiap keterampilan yang Anda peroleh dalam pemrosesan sinyal, analisis gambar, visi komputer akan membantu Anda di masa depan. Ini misalnya dibahas dalam posting blog: Apakah Kita Lupa tentang Geometri dalam Penglihatan Komputer? oleh Alex Kendall:
Contoh konkret dapat berupa: pasangan gambar yang sangat gelap (mis. Pengawasan) dari lokasi yang sama, perlu dievaluasi jika salah satunya berisi perubahan spesifik yang harus dideteksi, berpotensi menjadi masalah pemrosesan gambar tradisional, lebih dari sekadar Deep Learning (mulai hari ini).
Di sisi lain, sesukses Deep Learning dalam skala besar, ini dapat menyebabkan kesalahan klasifikasi sejumlah kecil data, yang mungkin tidak berbahaya "rata-rata" untuk beberapa aplikasi. Dua gambar yang hanya sedikit berbeda dengan mata manusia dapat diklasifikasikan secara berbeda melalui DL. Atau gambar acak dapat diatur ke kelas tertentu. Lihat misalnya Jaringan saraf dalam mudah tertipu: Prediksi kepercayaan tinggi untuk gambar yang tidak dapat dikenali (Nguyen A, Yosinski J, Clune J. Proc. Visi dan Pengenalan Pola Komputer 2015), atau Apakah Pembelajaran Dalam Memiliki Kelemahan Yang Dalam? , tentang negatif permusuhan:
Dengan segala hormat terhadap "Pembelajaran Dalam", pikirkan tentang "produksi massal menanggapi perilaku yang terdaftar, diketahui, dapat divalidasi secara massal atau yang diharapkan" versus "kerajinan tunggal". Tidak ada yang lebih baik (belum) dalam skala indeks tunggal. Keduanya mungkin harus hidup berdampingan untuk sementara waktu.
Namun, pembelajaran yang mendalam meliputi banyak bidang baru, seperti dijelaskan dalam referensi di bawah ini.
Untungnya, beberapa orang berusaha menemukan alasan matematika di balik pembelajaran mendalam, contohnya adalah menyebarkan jaringan atau transformasi yang diusulkan oleh Stéphane Mallat dan rekan penulisnya, lihat situs ENS untuk menyebarkan . Analisis harmonik dan operator non-linear, fungsi Lipschitz, terjemahan / invarian rotasi, lebih baik untuk orang pemrosesan sinyal rata-rata. Lihat misalnya Memahami Deep Convolutional Networks .
sumber
Pertama, tidak ada yang salah dengan melakukan pekerjaan grad dalam pemrosesan gambar atau visi komputer dan menggunakan pembelajaran yang mendalam. Pembelajaran yang mendalam tidak membunuh pemrosesan gambar dan visi komputer, itu hanyalah topik penelitian terkini di bidang-bidang tersebut.
Kedua, pembelajaran mendalam terutama digunakan dalam pengenalan kategori objek. Tapi itu hanya satu dari banyak bidang visi komputer. Ada area lain, seperti deteksi objek, pelacakan, rekonstruksi 3D, dll., Banyak di antaranya masih mengandalkan fitur "kerajinan tangan".
sumber
No Deep Learning tidak membunuh Pemrosesan Gambar. Anda membutuhkan kumpulan data yang besar dan banyak sumber daya komputasi untuk melakukan pembelajaran yang mendalam. Ada banyak aplikasi yang diinginkan untuk dapat melakukan pemrosesan gambar dengan beban komputasi yang lebih sedikit dan jejak memori yang lebih kecil dan tanpa memiliki akses ke database besar. Beberapa contoh adalah ponsel, tablet, kamera ponsel, mobil, quadcopter. Pembelajaran mendalam sangat digemari saat ini karena ada beberapa hasil klasifikasi yang sangat mengesankan.
Klasifikasi adalah satu masalah dari banyak yang berurusan dengan Pengolahan Citra sehingga bahkan jika benar bahwa pembelajaran mendalam akan menyelesaikan semua masalah klasifikasi, akan ada banyak jenis Pengolahan Gambar yang tersisa untuk dilakukan. Pengurangan kebisingan, registrasi gambar, perhitungan gerak, morphing / blending, penajaman, koreksi dan transformasi optik, perhitungan geometri, estimasi 3D, model gerakan waktu 3D +, penglihatan stereo, kompresi dan pengkodean data, segmentasi, deblurring, stabilisasi gerakan, grafik komputer, semua jenis rendering.
sumber
Hari ini kami berdiskusi dengan seorang teman. Itu adalah hari hujan di sini di Munich, sementara sebagian besar Eropa memiliki semacam suasana yang cerah. Orang-orang berbagi foto di media sosial, di mana mereka mengenakan gaun musim panas yang bagus, berkeliaran di lautan. Dia kesal dengan situasi ini dan menoleh ke saya dan bertanya: "Bisakah Anda menulis perangkat lunak untuk memblokir gambar di media sosial, yang melibatkan foto-foto lucu musim panas, ketika cuaca di sini seburuk ini?". Saya bilang, mengapa tidak. Yang perlu Anda lakukan adalah mengumpulkan satu set besar gambar musim panas, dan contoh negatif, beri makan melalui jaringan, yang melakukan klasifikasi biner pada tingkat "Block" atau "No-block". Latih dan selaraskan jaringan. Itu dia.
Kemudian, saya menoleh ke diri saya sendiri: Apakah saya benar-benar tahu cara menulis algoritma sederhana untuk memutuskan apakah cuacanya bagus atau tidak, tanpa membiarkan mesin berpikir untuk saya? Nyaris ... Mungkin ... Untuk pembaca yang penasaran, berikut adalah beberapa fitur yang mungkin ingin Anda rancang, jika Anda ingin mencobanya:
Jelas, saya bahkan tidak akan peduli dengan publikasi CVPR ini saat ini dan hanya pergi jauh. Jadi, sama seperti saya menyukai pembelajaran mendalam untuk kinerja yang kuat dalam banyak skenario, saya juga menggunakannya dengan hati-hati. Bahkan jika itu tidak akan membunuh pengetahuan saya tentang pemrosesan gambar, itu cenderung mengurangi keahlian domain yang saya butuhkan. Secara intelektual, ini tidak terlalu elegan.
Segera setelah individu tersebut memutuskan untuk tetap berada di jalurnya dan mendapat manfaat dari kedua dunia, dia akan berada di sisi yang aman.
sumber
Jawaban singkatnya adalah, Tidak. DL dapat mengenali mug di foto, tetapi ini tidak mematikan pemrosesan sinyal. Karena itu, pertanyaan Anda cukup relevan di masa-masa sulit ini. Ada diskusi panel yang bagus tentang masalah ini, menampilkan Stephane Mallat, dll., Di sini .
sumber
Rekayasa data masih digunakan dalam pembelajaran mesin untuk memproses dan memilih data yang diumpankan ke DNN untuk meningkatkan waktu belajar dan efisiensi evaluasi mereka. Pemrosesan gambar (hal-hal antara sensor kamera dan bitmap RGB / dll. Diumpankan ke DNNs), suatu bentuk rekayasa data, masih diperlukan.
sumber
Pemahaman yang mendalam tentang pemrosesan sinyal (bersama dengan aljabar linier, kalkulus vektor, statistik matematika, dll.) Sangat diperlukan untuk pekerjaan non-sepele di bidang pembelajaran mendalam, terutama dalam visi komputer.
Beberapa makalah berdampak tinggi dalam pembelajaran yang mendalam (sekarang sebagian besar buah yang menggantung rendah telah dipetik) menunjukkan pemahaman yang baik tentang konsep pemrosesan sinyal.
Beberapa konsep motivasi:
Daftarnya berlanjut. Jadi, bahkan jika Anda akhirnya bekerja dalam visi komputer dan menerapkan pembelajaran mendalam untuk masalah Anda, latar belakang pemrosesan sinyal akan membuat hal-hal yang sangat mudah dipahami untuk Anda.
sumber
Saya benar-benar tidak melakukan banyak pemrosesan gambar tetapi saya bekerja untuk organisasi (Angkatan Laut AS) yang melakukan dan mendanai penelitian dalam klasifikasi sinyal saat terakhir kali Neural Nets menjadi topik hangat, pertengahan hingga akhir 80-an. Saya harus duduk melalui sejumlah besar barang-barang pemasaran dasarnya. Argumennya ada di sepanjang baris:
Butuh buku Bishop untuk meredam sinisme saya.
Dalam lebih dari beberapa aplikasi, algoritma pemrosesan sinyal yang optimal akan membutuhkan pencarian enumerasi lengkap atas ruang parameter besar yang dengan cepat menjadi tidak bisa dipraktikkan. Ladang server besar dapat meningkatkan ruang pencarian yang dapat dicapai tetapi pada titik tertentu, Anda perlu menemukan heuristik. DL tampaknya dapat menemukan beberapa heuristik tersebut tetapi tidak memecahkan NP optimasi yang mendasarinya.
sumber
Perspektif saya dari universitas adalah bahwa banyak orang pemroses sinyal agak memusuhi ML, saya curiga karena mereka merasa terancam melanggar batas pada domain mereka. Tetapi baru-baru ini ada banyak penelitian tentang manfaat jaringan saraf dalam yang bernilai kompleks, yang mungkin menunjukkan bahwa tiket emas benar-benar pemahaman yang solid dari kedua disiplin ilmu.
sumber
Baiklah. Dengan cara yang sama bahwa pengembangan dalam bahasa pemrograman tingkat yang lebih tinggi seperti pemrograman perakitan C ++ dan Python 'dibunuh'. Itu tidak berarti tidak relevan untuk belajar perakitan ketika Anda mendaftar di kursus CS. Ini memberikan wawasan besar tentang bagaimana komputer bekerja, apa yang terjadi di belakang layar bahasa tingkat yang lebih tinggi, apa prinsip dasar bahasa komputer, dll. Tetapi tidak ada orang yang waras sekarang akan memprogram aplikasi desktop dalam perakitan.
sumber