Saya telah membaca kata-kata itu dalam publikasi yang cukup banyak dan saya ingin memiliki beberapa definisi yang bagus untuk istilah-istilah tersebut yang memperjelas perbedaan antara deteksi objek vs segmentasi semantik vs lokalisasi. Alangkah baiknya jika Anda bisa memberikan sumber untuk definisi Anda.
terminology
computer-vision
Martin Thoma
sumber
sumber
Jawaban:
Saya membaca banyak makalah tentang, Deteksi Objek, Pengakuan Objek, Segmentasi Objek, Segmentasi Gambar dan Segmentasi Gambar Semantik dan inilah kesimpulan saya yang mungkin tidak benar:
Pengakuan Objek: Pada gambar yang diberikan Anda harus mendeteksi semua objek (kelas objek terbatas bergantung pada dataset Anda), Lokalkan dengan kotak pembatas dan label kotak pembatas dengan label. Pada gambar di bawah ini Anda akan melihat output sederhana dari keadaan pengenalan objek seni.
Deteksi Objek: ini seperti pengenalan Objek tetapi dalam tugas ini Anda hanya memiliki dua kelas klasifikasi objek yang berarti kotak pembatas objek dan kotak pembatas objek. Misalnya Deteksi mobil: Anda harus Mendeteksi semua mobil dalam gambar yang diberikan dengan kotak pembatasnya.
Segmentasi Objek: Seperti pengenalan objek, Anda akan mengenali semua objek dalam suatu gambar tetapi output Anda harus menunjukkan objek ini dengan mengelompokkan piksel-piksel dari gambar tersebut.
Segmentasi Gambar: Dalam segmentasi gambar Anda akan mengelompokkan wilayah gambar. output Anda tidak akan memberi label segmen dan wilayah gambar yang konsisten satu sama lain harus dalam segmen yang sama. Mengekstraksi piksel super dari gambar adalah contoh dari tugas ini atau segmentasi latar latar depan.
Segmentasi Semantik: Dalam segmentasi semantik Anda harus memberi label setiap piksel dengan kelas objek (Mobil, Orang, Anjing, ...) dan non-objek (Air, Langit, Jalan, ...). Saya kata lain dalam Segantic Semantic Anda akan memberi label setiap wilayah gambar.
sumber
Karena masalah ini masih belum begitu jelas bahkan sekarang pada tahun 2019, dan ini mungkin membantu ML-Pembelajar baru memilih, berikut adalah gambar yang sangat bagus yang menunjukkan perbedaan:
(lokalisasi adalah kotak pembatas di sekitar kelas "domba", setelah klasifikasi gambar dilakukan) sumber: Towardsdatascience.com
sumber
Saya percaya hanya "lokalisasi" berarti "klasifikasi objek tunggal + lokalisasi menggunakan kotak pembatas 2D atau 3D".
"Deteksi objek" adalah melokalisasi + mengklasifikasikan semua instance dari kelas objek yang diketahui yang dipertanyakan.
Segmentasi Semantik pada dasarnya adalah klasifikasi per-piksel.
Juga menggunakan metrik yang terlibat (sumber: https://devblogs.nvidia.com/parallelforall/deep-learning-object-detection-digits/ )
Presisi adalah rasio objek yang diidentifikasi secara akurat terhadap jumlah objek yang diprediksi (rasio positif sejati terhadap positif sejati ditambah positif palsu).
Ingat adalah rasio objek yang diidentifikasi secara akurat dengan jumlah objek aktual dalam gambar (rasio positif sejati terhadap positif sejati ditambah negatif sejati).
mAP: skor Average Precision rata-rata yang disederhanakan berdasarkan pada produk presisi dan penarikan untuk DetectNet. Ini adalah ukuran gabungan yang baik untuk seberapa sensitif jaringan terhadap objek yang diminati dan seberapa baik ia menghindari alarm palsu.
sumber
Istilah lokalisasi tidak jelas. Karena itu saya akan membahas istilah deteksi objek dan segmentasi semantik.
Dalam deteksi objek, setiap piksel gambar diklasifikasi apakah termasuk dalam kelas tertentu (mis. Wajah) atau tidak. Dalam praktiknya, ini disederhanakan dengan mengelompokkan piksel bersama-sama untuk membentuk kotak pembatas sehingga mengurangi masalah untuk memutuskan apakah kotak pembatas cocok erat di sekitar objek. Karena piksel dapat menjadi bagian dari banyak objek (mis. Wajah, mata), piksel tersebut dapat menampung banyak label secara bersamaan.
Di sisi lain, segmentasi semantik melibatkan pemberian label kelas untuk setiap piksel gambar. Meskipun mereka memungkinkan akurasi pelokalan yang lebih baik karena mereka tidak memasukkan penyederhanaan kotak pembatas, mereka secara ketat menegakkan label tunggal per piksel.
sumber
Segmentasi semantik: Ini adalah tugas pengelompokan bagian-bagian gambar bersama yang milik kelas objek yang sama. misalnya: mendeteksi rambu-rambu jalan
sumber