Apa yang dimaksud dengan "segmentasi semantik" dibandingkan dengan "segmentasi" dan "pelabelan adegan"?

97

Apakah segmentasi semantik hanya sebuah Pleonasm atau adakah perbedaan antara "segmentasi semantik" dan "segmentasi"? Apakah ada perbedaan dengan "pelabelan adegan" atau "penguraian adegan"?

Apa perbedaan antara tingkat piksel dan segmentasi piksel?

(Pertanyaan sampingan: Jika Anda memiliki anotasi berdasarkan piksel seperti ini, apakah Anda mendapatkan deteksi objek secara gratis atau masih ada yang harus dilakukan?)

Tolong berikan sumber untuk definisi Anda.

Sumber yang menggunakan "segmentasi semantik"

  • Jonathan Long, Evan Shelhamer, Trevor Darrell: Jaringan Konvolusional Penuh untuk Segmentasi Semantik . CVPR, 2015 dan PAMI, 2016
  • Hong, Seunghoon, Hyeonwoo Noh, dan Bohyung Han: "Decoupled Deep Neural Network for Semi-Supervised Semantic Segmentation." pracetak arXiv arXiv: 1506.04924 , 2015.
  • V. Lempitsky, A. Vedaldi, dan A. Zisserman: Model tiang untuk segmentasi semantik. Dalam Kemajuan dalam Sistem Pemrosesan Informasi Neural, 2011.

Sumber yang menggunakan "pelabelan adegan"

Sumber yang menggunakan "tingkat piksel"

  • Pinheiro, Pedro O., dan Ronan Collobert: "Dari Pelabelan Tingkat Gambar ke Tingkat Piksel dengan Jaringan Konvolusional." Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2015. (lihat http://arxiv.org/abs/1411.6228 )

Sumber yang menggunakan "pixelwise"

  • Li, Hongsheng, Rui Zhao, dan Xiaogang Wang: "Propagasi maju dan mundur jaringan saraf konvolusional yang sangat efisien untuk klasifikasi piksel." arXiv pracetak arXiv: 1412.4526 , 2014.

Google Ngrams

"Segmentasi semantik" tampaknya lebih banyak digunakan baru-baru ini daripada "pelabelan adegan"

masukkan deskripsi gambar di sini

Martin Thoma
sumber
Istilah lain yang tampaknya sangat mirip: klasifikasi / pelabelan (per) piksel
Martin Thoma
12
Sangat menarik bahwa @MartinThoma memiliki segmentasi semantik survei pracetak arXiv, diterbitkan hampir 6 bulan setelah mengajukan pertanyaan [tautan] ( arxiv.org/pdf/1602.06541.pdf ). Kerja bagus!
Mohamed Hasan

Jawaban:

92

"segmentasi" adalah partisi gambar menjadi beberapa bagian "koheren", tetapi tanpa upaya untuk memahami apa yang diwakili oleh bagian-bagian ini. Salah satu karya paling terkenal (tapi jelas bukan yang pertama) adalah "Potongan Normalisasi dan Segmentasi Gambar" Shi dan Malik PAMI 2000 . Karya-karya ini mencoba untuk mendefinisikan "koherensi" dalam istilah isyarat tingkat rendah seperti warna, tekstur dan kehalusan batas. Anda dapat menelusuri kembali karya-karya ini ke teori Gestalt .

Di sisi lain, "segmentasi semantik" mencoba untuk mempartisi gambar menjadi bagian yang bermakna secara semantik, dan untuk mengklasifikasikan setiap bagian ke dalam salah satu kelas yang telah ditentukan sebelumnya. Anda juga dapat mencapai tujuan yang sama dengan mengklasifikasikan setiap piksel (bukan seluruh gambar / segmen). Dalam hal ini Anda melakukan klasifikasi berdasarkan piksel, yang mengarah ke hasil akhir yang sama tetapi dengan jalur yang sedikit berbeda ...

Jadi, saya kira Anda dapat mengatakan bahwa "segmentasi semantik", "pelabelan adegan", dan "klasifikasi piksel" pada dasarnya mencoba untuk mencapai tujuan yang sama: memahami secara semantik peran setiap piksel dalam gambar. Anda dapat mengambil banyak jalan untuk mencapai tujuan itu, dan jalur ini menyebabkan sedikit nuansa dalam terminologi.

Shai
sumber
2
Jalur mana yang mengarah ke segmentasi semantik dan mana yang mengarah ke pelabelan adegan atau klasifikasi piksel?
Martin Thoma
3
@moose secara umum, jika Anda menggunakan alat dan algoritme yang berasal dari bidang penelitian "segmentasi" (misalnya, CRF, istilah pemicu kelancaran, dll.) maka Anda melakukan "segmentasi semantik". Di sisi lain, jika Anda menggunakan alat dan algoritme yang digunakan dalam klasifikasi gambar yang menerapkannya secara lokal, Anda cenderung mendeskripsikan pekerjaan Anda sebagai "pelabelan piksel". Namun, menurut saya tidak ada perbedaan praktis, hanya semantik: ini adalah sinonim dari tujuan akhir yang sama.
Shai
63

Saya membaca banyak makalah tentang Deteksi Objek, Pengenalan Objek, Segmentasi Objek, Segmentasi Gambar, dan Segmentasi Gambar Semantik dan inilah kesimpulan saya yang mungkin tidak benar:

Pengenalan Objek: Dalam gambar yang diberikan, Anda harus mendeteksi semua objek (kelas objek yang dibatasi bergantung pada kumpulan data Anda), melokalkannya dengan kotak pembatas dan melabeli kotak pembatas itu dengan label. Pada gambar di bawah ini Anda akan melihat output sederhana dari pengenalan objek seni.

pengenalan objek

Deteksi Objek: ini seperti pengenalan Objek tetapi dalam tugas ini Anda hanya memiliki dua kelas klasifikasi objek yang berarti kotak pembatas objek dan kotak pembatas non-objek. Misalnya Deteksi mobil: Anda harus Mendeteksi semua mobil dalam gambar tertentu dengan kotak pembatasnya.

Deteksi Objek

Segmentasi Objek: Seperti pengenalan objek, Anda akan mengenali semua objek dalam gambar, tetapi output Anda harus menunjukkan objek yang mengklasifikasikan piksel gambar.

segmentasi objek

Segmentasi Gambar: Dalam segmentasi gambar, Anda akan menyegmentasikan wilayah gambar. keluaran Anda tidak akan memberi label segmen dan wilayah gambar yang konsisten satu sama lain harus dalam segmen yang sama. Mengekstrak piksel super dari sebuah gambar adalah contoh dari tugas ini atau segmentasi latar depan.

segmentasi gambar

Segmentasi Semantik: Dalam segmentasi semantik Anda harus memberi label pada setiap piksel dengan kelas objek (Mobil, Orang, Anjing, ...) dan non-objek (Air, Langit, Jalan, ...). Dengan kata lain dalam Segmentasi Semantik Anda akan memberi label pada setiap wilayah gambar.

segmenasi semantik

Menurut saya, pelabelan tingkat piksel dan piksel pada dasarnya sama, bisa berupa segmentasi gambar atau segmentasi semantik. Saya juga telah menjawab pertanyaan Anda di tautan ini dengan cara yang sama.

e_soroush
sumber
8
Saya juga akan menambahkan segmentasi instance, yaitu delienation antara instance dari objek yang sama
Alex
1
Saya berpendapat "Pengenalan Gambar" adalah sinonim untuk "Klasifikasi Gambar" daripada "Deteksi Gambar". Ini tentang mengenali satu atau beberapa objek dalam sebuah gambar dan dapat mengetahui apakah itu ada. Jika kita juga ingin tahu dimana itu, kita perlu mendeteksi objek menggunakan kotak pembatas. Selain itu, saya tidak melihat alasan mengapa detektor objek hanya dapat mendeteksi satu kelas.
pietz
Saya sebagian setuju dengan Anda. Saya tidak menyebutkan apa itu pengenalan gambar, jadi pengenalan dan klasifikasi gambar bisa memiliki arti yang sama. Namun, deteksi objek banyak digunakan untuk masalah dua kelas dan pengenalan objek untuk multi kelas. Bagaimanapun, saya tidak memiliki penjaga untuk jawaban saya, itu hanya ide saya dari membaca beberapa makalah sekitar tiga tahun lalu! Bersulang!
e_soroush
Bisakah Anda menguraikan beberapa tempat di mana Anda menemukan bacaan Anda?
qarthandso
36

Jawaban sebelumnya sangat bagus, saya ingin menunjukkan beberapa tambahan lagi:

Segmentasi Objek

salah satu alasan mengapa hal ini tidak disukai oleh komunitas penelitian adalah karena hal ini tidak jelas secara problematis. Segmentasi objek biasanya berarti menemukan satu atau sedikit objek dalam sebuah gambar dan menggambar batas di sekitarnya, dan untuk sebagian besar tujuan Anda masih dapat berasumsi demikian. Namun, ini juga mulai digunakan untuk segmentasi blob yang mungkin menjadi objek, segmentasi objek dari latar belakang (lebih umum sekarang disebut pengurangan latar belakang atau segmentasi latar belakang atau deteksi latar depan), dan bahkan dalam beberapa kasus digunakan secara bergantian dengan pengenalan objek menggunakan kotak pembatas (ini dengan cepat berhenti dengan munculnya pendekatan jaringan saraf dalam untuk pengenalan objek, tetapi pengenalan objek sebelumnya juga bisa berarti hanya memberi label pada seluruh gambar dengan objek di dalamnya).

Apa yang membuat "segmentasi" "semantik"?

Simpy, setiap segmen, atau dalam kasus metode mendalam setiap piksel, diberi label kelas berdasarkan kategori. Segmentasi secara umum hanyalah pembagian gambar dengan beberapa aturan. Segmentasi pergeseran , misalnya, dari tingkat yang sangat tinggi membagi data sesuai dengan perubahan energi gambar. Potongan grafiksegmentasi berbasis sama tidak dipelajari tetapi langsung diturunkan dari properti setiap gambar yang terpisah dari yang lain. Metode (berbasis jaringan neural) yang lebih baru menggunakan piksel yang diberi label untuk belajar mengidentifikasi fitur lokal yang terkait dengan kelas tertentu, lalu mengklasifikasikan setiap piksel berdasarkan kelas mana yang memiliki tingkat keyakinan tertinggi untuk piksel tersebut. Dengan cara ini, "pelabelan piksel" sebenarnya adalah nama yang lebih jujur ​​untuk tugas tersebut, dan komponen "segmentasi" muncul.

Segmentasi Instance

Bisa dibilang arti yang paling sulit, relevan, dan asli dari Segmentasi Objek, "segmentasi contoh" berarti segmentasi objek individu dalam sebuah adegan, terlepas dari apakah mereka memiliki tipe yang sama. Namun, salah satu alasan mengapa hal ini begitu sulit adalah karena dari perspektif visi (dan dalam beberapa hal filosofis) apa yang membuat contoh "objek" tidak sepenuhnya jelas. Apakah bagian tubuh objek? Haruskah "objek bagian" seperti itu disegmentasi sama sekali oleh algoritme segmentasi instance? Haruskah mereka hanya tersegmentasi jika terlihat terpisah dari keseluruhan? Bagaimana dengan benda majemuk jika dua benda berdampingan dengan jelas tetapi dapat dipisahkan menjadi satu atau dua benda (apakah batu yang direkatkan ke puncak tongkat adalah kapak, palu, atau hanya tongkat dan batu kecuali dibuat dengan benar?). Juga, bukan t jelas bagaimana membedakan contoh. Apakah sebuah wasiat merupakan contoh terpisah dari dinding lain tempat itu dipasang? Dalam urutan apa contoh harus dihitung? Saat mereka muncul? Kedekatan dengan sudut pandang? Terlepas dari kesulitan ini, segmentasi objek masih menjadi masalah besar karena sebagai manusia kita berinteraksi dengan objek sepanjang waktu terlepas dari "label kelas" -nya (menggunakan objek acak di sekitar Anda sebagai pemberat kertas, duduk di atas benda yang bukan kursi), dan beberapa kumpulan data mencoba untuk mengatasi masalah ini, tetapi alasan utama belum banyak perhatian yang diberikan untuk masalah ini adalah karena belum didefinisikan dengan cukup baik. masukkan deskripsi gambar di sini

Scene Parsing / Scene labeling

Scene Parsing adalah pendekatan segmentasi ketat untuk pelabelan adegan, yang juga memiliki beberapa masalah ketidakjelasan tersendiri. Secara historis, pelabelan adegan dimaksudkan untuk membagi seluruh "adegan" (gambar) menjadi beberapa segmen dan memberi mereka semua label kelas. Namun, itu juga digunakan untuk memberikan label kelas ke area gambar tanpa secara eksplisit menyegmentasikannya. Sehubungan dengan segmentasi, "segmentasi semantik" tidak berarti membagi seluruh pemandangan. Untuk segmentasi semantik, algoritme dimaksudkan untuk menyegmentasikan hanya objek yang diketahuinya, dan akan dikenakan sanksi oleh fungsi kerugiannya untuk memberi label piksel yang tidak memiliki label apa pun. Misalnya dataset MS-COCO adalah dataset untuk segmentasi semantik dimana hanya beberapa objek yang tersegmentasi. Gambar sampel MS-COCO

physincubus
sumber