Saya berjuang untuk memahami dengan jelas perbedaan antara klasifikasi berbasis pixel dan berbasis objek dalam domain penginderaan jauh dan saya berharap seseorang dari komunitas ini dapat memberikan wawasan.
Berdasarkan informasi yang saya miliki sejauh ini, pemahaman saya saat ini sejalan:
Klasifikasi berbasis piksel: Klasifikasi dilakukan pada tingkat per piksel, hanya menggunakan informasi spektral yang tersedia untuk masing-masing piksel tersebut (yaitu nilai piksel dalam lokalitas diabaikan). Dalam pengertian ini setiap piksel akan mewakili contoh pelatihan untuk algoritma klasifikasi, dan contoh pelatihan ini akan dalam bentuk vektor n-dimensi, di mana n adalah jumlah pita spektral dalam data gambar. Dengan demikian, algoritma klasifikasi yang terlatih akan menghasilkan prediksi kelas untuk setiap piksel individu dalam suatu gambar.
Klasifikasi berbasis objek: Klasifikasi dilakukan pada kelompok piksel yang dilokalkan, dengan mempertimbangkan sifat spasial dari masing-masing piksel yang berkaitan satu sama lain. Dalam pengertian ini contoh pelatihan untuk algoritma klasifikasi akan terdiri dari sekelompok piksel, dan algoritma klasifikasi yang terlatih akan menghasilkan prediksi kelas untuk piksel berdasarkan kelompok. Sebagai contoh kasar, gambar mungkin dipartisi menjadi n segmen dengan ukuran yang sama, dan setiap segmen kemudian akan diberi kelas (yaitu berisi objek / tidak mengandung objek).
Apakah pemikiran ini akurat mengenai arti dari istilah-istilah ini, atau adakah sesuatu yang saya lewatkan?
Sejauh klasifikasi berbasis pixel yang bersangkutan, Anda tepat. Setiap piksel adalah vektor n-dimensi dan akan ditetapkan ke beberapa kelas berdasarkan beberapa metrik, baik menggunakan Support Vector Machines, MLE, semacam knn classifier, dll.
Sejauh menyangkut pengklasifikasi berbasis wilayah, ada perkembangan besar dalam beberapa tahun terakhir, didorong oleh kombinasi GPU, data dalam jumlah besar, cloud dan ketersediaan algoritma yang luas berkat pertumbuhan sumber terbuka (difasilitasi oleh github). Salah satu perkembangan terbesar dalam visi / klasifikasi komputer adalah pada jaringan saraf convolutional (CNNs). Lapisan konvolusional "mempelajari" fitur yang mungkin didasarkan pada warna, seperti dengan pengklasifikasi berbasis piksel tradisional, tetapi juga membuat detektor tepi dan semua jenis ekstraktor fitur lain yang dapat ada di wilayah piksel (maka bagian konvolusional) yang Anda tidak dapat mengekstraksi dari klasifikasi berbasis piksel. Ini berarti mereka lebih kecil kemungkinannya untuk mengklasifikasikan salah satu piksel di tengah-tengah area piksel jenis lainnya - jika Anda pernah menjalankan klasifikasi dan mendapatkan es di tengah Amazon, Anda akan memahami masalah ini.
Anda kemudian menerapkan jaringan saraf yang terhubung penuh ke "fitur" yang dipelajari melalui konvolusi untuk benar-benar melakukan klasifikasi. Salah satu keuntungan besar CNN lainnya adalah bahwa mereka berskala dan invarian rotasi, karena biasanya ada lapisan menengah antara lapisan konvolusi dan lapisan klasifikasi yang menggeneralisasi fitur, menggunakan pooling dan dropout, untuk menghindari overfitting, dan membantu dengan masalah di sekitar skala dan orientasi.
Ada banyak sumber daya pada jaringan saraf convolutional, meskipun yang terbaik harus kelas Standord dari Andrei Karpathy , yang merupakan salah satu pelopor bidang ini, dan seluruh seri kuliah tersedia di youtube .
Tentu, ada cara lain untuk berurusan dengan klasifikasi berbasis pixel versus area, tetapi ini saat ini merupakan pendekatan mutakhir, dan memiliki banyak aplikasi di luar klasifikasi penginderaan jauh, seperti terjemahan mesin dan mobil self-driving.
Berikut adalah contoh lain dari klasifikasi berbasis wilayah , menggunakan Open Street Map untuk menandai data pelatihan, termasuk instruksi untuk mengatur TensorFlow dan berjalan di AWS.
Berikut ini adalah contoh menggunakan Google Earth Engine dari penggolong berdasarkan deteksi tepi, dalam hal ini untuk irigasi pivot - menggunakan tidak lebih dari kernel dan konvolusi Gaussian, tetapi sekali lagi, menunjukkan kekuatan pendekatan berbasis wilayah / tepi.
Sementara keunggulan objek lebih dari klasifikasi berbasis pixel cukup diterima secara luas, berikut adalah artikel yang menarik di Remote Sensing Letters yang menilai kinerja klasifikasi berbasis objek .
Akhirnya, contoh yang lucu, hanya untuk menunjukkan bahwa bahkan dengan pengklasifikasi berbasis regional / konvolusional, visi komputer masih sangat sulit - untungnya, orang-orang terpintar di Google, Facebook, dll, sedang bekerja pada algoritma untuk dapat menentukan perbedaan antara anjing, kucing, dan berbagai jenis anjing dan kucing. Jadi, mereka yang tertarik menggunakan penginderaan jauh bisa tidur nyenyak di malam hari: D
sumber
Jawaban yang sangat sederhana adalah sebagai berikut:
Jika Anda hanya menggunakan informasi spektral (intensitas Pixel) sebagai set latihan, Anda melakukan klasifikasi basis piksel.
Jika Anda menggunakan informasi spasial (piksel lingkungan) dan spektral sebagai pelatihan, Anda melakukan klasifikasi basis objek (menggunakan algoritma berbasis segmentasi misalnya DBScan). Dalam Computer Vision DBScan ini digunakan untuk ekstraksi Superpixel.
Catatan: Anda dapat menggunakan informasi spektral dalam arti apa pun (ukuran, bentuk, konteks / tekstur) untuk ekstraksi fitur.
Anda dapat menggunakan pendekatan yang berbeda untuk melakukan ekstraksi fitur menggunakan info spektral.
Pertanyaan utama adalah bahwa Bagaimana seseorang dapat menemukan pendekatan yang paling tepat untuk ekstraksi fitur dan menerapkan algoritma yang efisien (deteksi tepi, segmentasi berbasis Spectral, Clustering) untuk masalah yang diajukan untuk mengusir informasi dari informasi spektral.
Orang mungkin berpikir tentang matriks konvolusi untuk melakukan analisis yang bagus dalam informasi spektral dan spasial untuk membuat set pelatihan.
Referensi: Pengetahuan saya setelah memiliki pengalaman lebih dari 3 tahun bekerja di Remote Sensing dan GIS Domain.
sumber