Mengapa perbedaan skala ruang gaussi invarian?

15

Saya akan menggunakan algoritma transformasi fitur Scale-invariant sebagai contoh di sini. SIFT menciptakan ruang skala berdasarkan skala penyaringan gaussian dari suatu gambar, dan kemudian menghitung perbedaan gaussians untuk mendeteksi titik bunga potensial. Poin-poin ini didefinisikan sebagai minimum lokal dan maksimum di selisih gaussians.

Dikatakan bahwa pendekatan ini adalah skala invarian (di antara invariansi membingungkan lainnya). Kenapa ini? Tidak jelas bagi saya mengapa ini terjadi.

air
sumber
Tidak tahu apa SIFT itu, temukan ini di wiki en.wikipedia.org/wiki/Scale-invariant_feature_transform . "Metode Lowe untuk pembuatan fitur gambar mengubah gambar menjadi koleksi besar vektor fitur, yang masing-masing tidak berbeda dengan terjemahan, penskalaan, dan rotasi gambar, sebagian tidak berubah pada perubahan pencahayaan dan kuat untuk distorsi geometrik lokal." Apakah itu penjelasannya?
niaren
Ya, itulah yang saya bicarakan
air
SIFT menggunakan teori skala-ruang. Namun saya tidak mengerti apa yang dimaksud dengan "skala" invarian dalam teori itu. Anda dapat mencoba membaca makalah Tony Lindeberg tentang hal itu: csc.kth.se/ ~tony
maximus

Jawaban:

7

Istilah "skala invarian" berarti yang berikut di sini. Katakanlah Anda memiliki gambar I , dan Anda telah mendeteksi fitur (alias titik minat) f di beberapa lokasi (x, y) dan pada beberapa tingkat skala s . Sekarang katakanlah Anda memiliki gambar I ' , yang merupakan versi skala I (downsampled, misalnya). Kemudian, jika detektor fitur Anda adalah skala-invarian, Anda harus dapat mendeteksi fitur yang sesuai untuk ' di I' di lokasi yang sesuai (x ', y') dan skala yang sesuai s ' , di mana (x, y, s) dan (x ', y', s ') terkait dengan transformasi skala yang tepat.

Dengan kata lain, jika detektor invarian skala Anda telah mendeteksi titik fitur yang sesuai dengan wajah seseorang, dan kemudian Anda memperbesar atau memperkecil dengan kamera Anda pada adegan yang sama, Anda masih harus mendeteksi titik fitur pada wajah itu.

Tentu saja, Anda juga menginginkan "deskriptor fitur" yang memungkinkan Anda untuk mencocokkan kedua fitur tersebut, yang persis seperti yang diberikan SIFT kepada Anda.

Jadi, dengan risiko membingungkan Anda lebih lanjut, ada dua hal yang berbeda-beda di sini. Salah satunya adalah detektor titik bunga DoG, yang skala-invarian, karena mendeteksi jenis fitur gambar (gumpalan) tertentu terlepas dari skala mereka. Dengan kata lain, detektor DoG mendeteksi gumpalan dengan berbagai ukuran. Hal skala-invarian lainnya adalah deskriptor fitur, yang merupakan histogram orientasi gradien, yang tetap kurang lebih sama untuk fitur gambar yang sama meskipun ada perubahan skala.

By the way, perbedaan Gaussians digunakan di sini sebagai perkiraan untuk filter Laplacian-of-Gaussians.

Dima
sumber
Anda telah mengambil beberapa informasi dari teori ruang-skala. Bisakah Anda jelaskan penjelasan tentang apa yang sebenarnya terjadi dalam perbandingan dua sinyal menggunakan teori skala-ruang? The Lindeberg dalam makalahnya: csc.kth.se/~tony/earlyvision.html membuat beberapa contoh deteksi gumpalan dll. Bagaimana sebenarnya pengambilan turunan oleh parameter skala membantu dalam skala invarian?
maximus
Anda benar. Saya hanya mencoba menggambarkan intuisi di balik teori ruang-skala. Apa yang Anda tanyakan harus menjadi pertanyaan terpisah. :) Saya pikir apa yang Anda bicarakan adalah bahwa turunan yang diambil pada skala yang berbeda harus dinormalisasi dengan tepat. Ketika Anda pergi ke skala kasar, sinyal dihaluskan, sehingga amplitudo berkurang. Itu berarti bahwa besarnya turunan juga berkurang. Jadi, untuk membandingkan respons turunan di seluruh skala, Anda perlu melipatgandakannya dengan
Dima
kekuatan sigma yang tepat: turunan pertama oleh sigma, kedua oleh sigma ^ 2, dll.
Dima
@ Maximus, oops, saya fogot @. :)
Dima
Terimakasih atas balasan anda! Itu membantu saya, tetapi masih ada beberapa pertanyaan yang saya ajukan sebagai pertanyaan yang berbeda di sini: dsp.stackexchange.com/questions/570/…
maximus
5

Perbedaan gaussians tidak berskala invarian. Skala SIFT (hingga tingkat terbatas) tidak berubah karena mencari ekstremitas DoG di seluruh skala ruang - yaitu skala yang ditemukan dengan DoG ekstrem baik secara spasial dan relatif ke skala tetangga. Karena output DoG diperoleh untuk skala tetap ini (yang bukan merupakan fungsi skala input) hasilnya adalah skala-independen, yaitu skala-invarian.

mirror2image
sumber
1
Baik. Tapi itu hanya mencari ekstrem di sepanjang skala tetangga . Ini tidak semua skala, kecuali saya salah. Sekalipun semuanya berskala, masih belum jelas bagaimana skala itu independen
air
@ water, itu benar sekali. Anda tidak ingin ekstrem di semua skala, Anda ingin ekstrema lokal. Ini memungkinkan Anda mendeteksi struktur bersarang, misalnya lingkaran gelap kecil di dalam lingkaran besar terang pada latar belakang abu-abu.
Dima
DoG digunakan sebagai ganti LoG karena lebih cepat untuk menghitung DoG.
maximus