Apa cerita di balik cerita tentang deskriptor SIFT?

9

Berikut ini adalah dari makalah Lowe 2004 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).

Salah satu pendekatan yang jelas akan menjadi sampel intensitas gambar lokal di sekitar titik kunci pada skala yang sesuai, dan untuk mencocokkan ini menggunakan ukuran korelasi normalisasi. Namun, korelasi sederhana tambalan gambar sangat sensitif terhadap perubahan yang menyebabkan misregistrasi sampel, seperti perubahan sudut pandang 3D atau sudut pandang yang halus atau deformasi yang tidak kaku. Pendekatan yang lebih baik telah ditunjukkan oleh Edelman, Intrator, dan Poggio (1997). Representasi yang diusulkan didasarkan pada model penglihatan biologis, khususnya neuron kompleks pada korteks visual primer.Neuron kompleks ini merespons gradien pada orientasi dan frekuensi spasial tertentu, tetapi lokasi gradien pada retina diizinkan untuk bergeser pada bidang reseptif kecil daripada dilokalisasi secara tepat. Edelman et al. berhipotesis bahwa fungsi neuron kompleks ini memungkinkan untuk pencocokan dan pengenalan objek 3D dari berbagai sudut pandang.

Saya mencoba memahami deskriptor SIFT. Saya mengerti tahap sebelumnya (keypoint detector).

Saya tidak tahu mengapa itu diterapkan seperti itu. Saya ingin tahu cerita di balik cerita itu.

jakeoung
sumber

Jawaban:

1

64×64

64×6416×16

Untuk setiap tambalan kita menghitung gradien dan kemudian menemukan arah dominan gradien (yang memiliki beberapa detail), kemudian mengambil arah dominan sebagai arah referensi kita akan membagi 360 derajat ke 8 daerah sudut masing-masing memiliki 45 derajat, lalu menjumlahkan besarnya masing-masing gradien yang terletak di setiap daerah sudut.

Kita dapat menganggap ini sebagai distribusi atau 8 bin histogram dari arah gradien (mengingat gradien yang kuat memiliki lebih banyak informasi, kita harus menggunakannya dengan bobot yang lebih tinggi dalam perhitungan distribusi sehingga kita menggunakan besaran mereka sebagai bobot yang mengarah pada penjumlahan dari besarnya). Maka kita akan menormalkan histogram ini.

Pada akhir untuk setiap patch kami memiliki histogram 8 bin dan kami memiliki 16 patch yang mengarah ke 128 angka descriptor.

Dengan menemukan arah dominan, deskriptor kami juga menjadi invarian rotasi. Dengan menggunakan gradien, deskriptor kami menjadi invarian terkait dengan pencahayaan dasar dan dengan menormalkan histogram yang diperoleh, deskriptor kami menjadi invarian terhadap kontras gambar.

Mohammad M
sumber