Dalam makalah RCNN Lebih Cepat ketika berbicara tentang penahan, apa artinya dengan menggunakan "piramida kotak referensi" dan bagaimana hal ini dilakukan? Apakah ini hanya berarti bahwa pada setiap titik jangkar W * H * k dihasilkan kotak pembatas?
Di mana W = lebar, H = tinggi, dan k = jumlah rasio aspek * skala num
tautan ke kertas: https://arxiv.org/abs/1506.01497
deep-learning
computer-vision
Program Buruk
sumber
sumber
Jawaban:
Jangkar Dijelaskan
Jangkar
Jangkar Sebenarnya Muncul di fungsi Kehilangan
Saat melatih RPN, pertama label kelas biner ditugaskan untuk setiap jangkar. Jangkar dengan Persimpangan-over-Union ( IoU ) tumpang tindih dengan kotak ground-kebenaran, lebih tinggi dari ambang tertentu, diberi label positif (demikian juga jangkar dengan IoU kurang dari ambang yang diberikan akan diberi label Negatif). Label-label ini selanjutnya digunakan untuk menghitung fungsi kerugian:
Juga perhatikan jangkar tanpa label tidak diklasifikasikan atau dibentuk kembali dan RPM hanya membuangnya dari perhitungan. Setelah pekerjaan RPN selesai, dan proposal dihasilkan, sisanya sangat mirip dengan Fast R-CNNs.
sumber
Saya membaca makalah ini kemarin dan, pada pandangan pertama, itu membingungkan saya juga. Setelah membaca ulang saya sampai pada kesimpulan ini:
7x7x512 (HxWxD)
.3x3
lapisan konv. Ukuran output adalah7x7x512
(jika bantalan digunakan).7x7x(2k+4k)
(misalnya7x7x54
) dengan1x1
lapisan konv untuk masing-masingk
kotak jangkar.Sekarang menurut Gambar 1 di kertas Anda dapat memiliki piramida gambar input (gambar yang sama dengan skala yang berbeda), piramida filter (filter skala berbeda, di lapisan yang sama) atau piramida kotak referensi. Yang terakhir mengacu pada
k
kotak jangkar di lapisan terakhir dari jaringan proposal wilayah. Alih-alih filter dengan ukuran berbeda yang ditumpuk di atas satu sama lain (casing tengah), filter dengan ukuran dan rasio aspek berbeda ditumpuk di atas satu sama lain.Singkatnya, untuk setiap titik jangkar (
HxW
, misalnya7x7
) digunakan piramida kotak referensi (k
, misalnya9
).sumber
3x3
lapisan konv diterjemahkan7x7
? Dalam prototxt, dikatakan padding adalah 1 pada layer VGG16 terakhir.