Jadi, saya membaca makalah tentang SURF (Bay, Ess, Tuytelaars, Van Gool: Fitur Kuat yang Dipercepat (SURF) ) dan saya tidak dapat memahami paragraf ini di bawah ini:
Karena penggunaan filter kotak dan gambar integral, kami tidak perlu menerapkan filter yang sama secara berulang pada output dari lapisan yang sebelumnya difilter, tetapi sebaliknya dapat menerapkan filter kotak dengan ukuran apa pun dengan kecepatan yang persis sama langsung pada gambar asli dan bahkan secara paralel (meskipun yang terakhir tidak dieksploitasi di sini). Oleh karena itu, ruang skala dianalisis dengan meningkatkan skala ukuran filter daripada secara iteratif mengurangi ukuran gambar, gambar 4.
This is figure 4 in question.
PS: Makalah ini memiliki penjelasan tentang gambar integral, namun seluruh isi makalah ini didasarkan pada paragraf tertentu di atas. Jika ada yang membaca makalah ini, bisakah Anda menyebutkan secara singkat apa yang sedang terjadi di sini. Penjelasan matematika keseluruhan cukup rumit untuk memiliki pemahaman yang baik pertama, jadi saya butuh bantuan. Terima kasih.
Edit, beberapa masalah:
1.
Setiap oktaf dibagi lagi menjadi jumlah skala skala yang konstan. Karena sifat diskrit dari gambar integral, perbedaan skala minimum antara 2 skala berikutnya tergantung pada panjang lob positif atau negatif dari turunan urutan kedua parsial dalam arah derivasi (x atau y), yang diatur ke sepertiga dari panjang ukuran filter. Untuk filter 9x9, panjang lo ini adalah 3. Untuk dua level berturut-turut, kita harus meningkatkan ukuran ini dengan minimum 2 piksel (satu piksel di setiap sisi) untuk menjaga ukurannya tidak rata dan dengan demikian memastikan keberadaan piksel pusat . Ini menghasilkan peningkatan total ukuran topeng sebesar 6 piksel (lihat gambar 5).
Figure 5
Saya tidak bisa memahami garis-garis dalam konteks yang diberikan.
Untuk dua tingkat berturut-turut, kita harus meningkatkan ukuran ini dengan minimum 2 piksel (satu piksel di setiap sisi) untuk menjaga ukurannya tidak rata dan dengan demikian memastikan keberadaan piksel pusat.
Saya tahu mereka mencoba melakukan sesuatu dengan panjang gambar, jika bahkan mereka mencoba membuatnya aneh, sehingga ada piksel pusat yang akan memungkinkan mereka untuk menghitung maksimum atau minimum dari gradien piksel. Saya agak ragu tentang makna kontekstualnya.
2.
Untuk menghitung deskriptor wavelet Haar digunakan.
3.
Apa perlunya memiliki filter perkiraan?
4. Saya tidak memiliki masalah dengan cara mereka mengetahui ukuran filter. Mereka "melakukan" sesuatu secara empiris. Namun, saya memiliki masalah yang mengganggu dengan bagian ini
Output dari filter 9x9, diperkenalkan pada bagian sebelumnya, dianggap sebagai lapisan skala awal, yang akan kita sebut skala s = 1.2 (mendekati turunan Gaussian dengan σ = 1.2).
Bagaimana mereka mengetahui tentang nilai σ. Apalagi bagaimana perhitungan penskalaan yang dilakukan ditunjukkan pada gambar di bawah ini. Alasan saya menyatakan tentang gambar ini adalah bahwa nilai s=1.2
terus berulang, tanpa dengan jelas menyatakan tentang asal-usulnya.
5.
Matriks Hessian diwakili dalam hal L
yang merupakan konvolusi gradien urutan kedua dari filter Gausssian dan gambar.
Namun determinan "diperkirakan" dikatakan hanya berisi istilah yang melibatkan filter Gaussian orde kedua.
Nilai w
adalah:
Pertanyaan saya mengapa determinan dihitung seperti itu di atas, dan apa hubungan antara matriks Hessian dan Hessian perkiraan.
Jawaban:
Apa itu SURF?
Untuk memahami dengan benar apa yang sedang terjadi, Anda juga harus terbiasa dengan SIFT : SURF pada dasarnya adalah perkiraan SIFT. Sekarang, pertanyaan sesungguhnya menjadi: apa SIFT? .
SIFT adalah detektor keypoint dan deskriptor keypoint . Di bagian detektor, SIFT pada dasarnya adalah varian multi-skala dari detektor sudut klasik seperti sudut Harris, dan yang memiliki kemampuan untuk menyetel skala secara otomatis. Kemudian, mengingat lokasi dan ukuran tambalan (berasal dari skala), ia dapat menghitung bagian deskriptor.
SIFT sangat bagus dalam mencocokkan potongan gambar affine lokal, tetapi memiliki satu kelemahan: itu mahal (yaitu, lama) untuk dihitung. Sejumlah besar waktu dihabiskan untuk menghitung ruang skala Gaussian (di bagian detektor), kemudian dalam menghitung histogram dari arah gradien (untuk bagian deskriptor).
Baik SIFT dan SURF dapat dilihat sebagai perbedaan Gaussians dengan pemilihan skala otomatis (yaitu ukuran Gaussian). Ini, Anda membangun ruang skala di mana gambar input difilter pada skala yang berbeda. Skala-ruang dapat dilihat sebagai piramida, di mana dua gambar berturut-turut terkait dengan perubahan skala (yaitu, ukuran low-pass fiert Gaussian telah berubah), dan skala kemudian dikelompokkan berdasarkan oktaf (yaitu, perubahan besar dalam ukuran filter Gaussian).
Bagian aproksimasi
Karena menghitung ruang skala Gaussian dan histogram arah gradiennya panjang, itu ide yang baik (dipilih oleh penulis SURF) untuk mengganti perhitungan ini dengan perkiraan cepat.
Para penulis berkomentar bahwa Gaussians kecil (seperti yang digunakan dalam SIFT) dapat didekati dengan baik oleh integral persegi (juga dikenal sebagai kotak blur ). Rata-rata persegi panjang ini memiliki properti bagus untuk menjadi sangat cepat untuk mendapatkan berkat trik gambar integral.
Selain itu, ruang skala Gaussian sebenarnya tidak digunakan per se , tetapi untuk memperkirakan Laplacian of Gaussians (Anda dapat menemukan ini di kertas SIFT). Dengan demikian, Anda tidak hanya membutuhkan gambar yang kabur-Gaussian, tetapi turunan dan perbedaannya. Jadi, Anda hanya perlu mendorong sedikit gagasan tentang mendekati Gaussian dengan sebuah kotak: pertama-tama, dapatkan Gaussian sebanyak yang diperlukan, lalu perkirakan setiap lobus dengan kotak dengan ukuran yang benar. Anda akhirnya akan berakhir dengan serangkaian fitur Haar.
Kenaikan 2
Ini hanya artefak implementasi, seperti yang sudah Anda duga. Tujuannya adalah memiliki piksel pusat. Deskriptor fitur dihitung sehubungan dengan pusat patch gambar yang akan dijelaskan.
Wilayah tengah
Angka ajaib
sumber
Untuk mengidentifikasi titik minat potensial, fungsi selisih Gaussian (DOG) sering digunakan untuk memproses gambar, sehingga membuatnya tidak berubah menurut skala dan orientasi.
Dalam SIFT, gambar piramida dibuat dengan memfilter setiap lapisan dengan DOG dengan
sigma
nilai yang meningkat dan mengambil perbedaan.Di sisi lain, SURF menerapkan perkiraan yang jauh lebih cepat dari turunan parsial Gaussian orde dua dengan Laplacian of Gaussian (LoG) dan filter persegi dengan ukuran yang berbeda (9 * 9, 15 * 15, ...). Biaya komputasi tidak tergantung pada ukuran filter. Tidak ada down-sampling (perubahan
sigma
) untuk level yang lebih tinggi dalam piramida, tetapi hanya skala atas ukuran filter yang menghasilkan gambar dengan resolusi yang sama.EDIT
Satu catatan tambahan: penulis dalam makalah Anda selanjutnya menyederhanakan turunan kedua Gaussian pada 4 orientasi (x, y, xy, yx) dengan kernel
[1 -2 1]
,[1 -2 1]'
,[1 -1;-1 1]
, dan[-1 1;1 -1]
. Ketika ukuran filter meningkat, Anda hanya perlu memperluas wilayah kernel yang disederhanakan untuk mencapai yang lebih besar. Dan itu setara dengan DOG dengan skala yang berbeda (kurva LoG adalah bentuk yang sama dengan DOG, dan ukuran filter membuat lebarnya juga sama).sumber