Langkah demi Langkah Estimasi Pose Kamera untuk Pelacakan Visual dan Penanda Planar

Penting untuk dipahami bahwa satu-satunya masalah di sini adalah mendapatkan parameter ekstrinsik. Intrinsik kamera dapat diukur secara off-line dan ada banyak aplikasi untuk tujuan itu.

Apa itu intrinsik kamera?

Kamera parameter intrinsik biasanya disebut matriks kalibrasi kamera, . Kita bisa menulis $K$

K = [\begin{matrix} α_{u} & s & u_{0} \\ 0 & α_{v} & v_{0} \\ 0 & 0 & 1 \end{matrix}]

$K = \begin{bmatrix}\alpha_u&s&u_0\\0&\alpha_v&v_0\\0&0&1\end{bmatrix}$

dimana

$\alpha_u$ dan adalah faktor skala dalam arah koordinat dan , dan sebanding dengan panjang fokus kamera: dan . dan adalah jumlah piksel per satuan jarak dalam arah dan . $\alpha_v$ $u$ $v$ $f$ $\alpha_u = k_u f$ $\alpha_v = k_v f$ $k_u$ $k_v$ $u$ $v$
disebut titik utama, biasanya koordinat pusat gambar. $c=[u_0,v_0]^T$
adalah condong, hanya non-nol jika danadalah non-tegak lurus. $s$ $u$ $v$

Sebuah kamera dikalibrasi saat intrinsik diketahui. Ini dapat dilakukan dengan mudah sehingga tidak mempertimbangkan tujuan dalam visi komputer, tetapi langkah sepele yang off-line.

Beberapa tautan:

ftp://svr-ftp.eng.cam.ac.uk/pub/reports/mendonca_self-calibration.pdf

Apa itu ekstrinsik kamera?

Ekstrinsik Kamera atau Parameter Eksternal adalah matriks yang sesuai dengan transformasi euclidean dari sistem koordinat dunia ke sistem koordinat kamera. merupakan matriks rotasi dan terjemahan. $[R|t]$ $3\times4$ $R$ $3\times3$ $t$

Aplikasi visi komputer fokus pada memperkirakan matriks ini.

[R | t] = [\begin{matrix} R_{11} & R_{12} & R_{13} & T_{x} \\ R_{21} & R_{22} & R_{23} & T_{y} \\ R_{31} & R_{32} & R_{33} & T_{z} \end{matrix}]

$[R|t] = \begin{bmatrix} R_{11}&R_{12}&R_{13}&T_x\\R_{21}&R_{22}&R_{23}&T_y\\R_{31}&R_{32}&R_{33}&T_z \end{bmatrix}$

Bagaimana cara saya menghitung homografi dari penanda planar?

Homografi adalah matriks homogen yang menghubungkan bidang 3D dan proyeksi gambarnya. Jika kita memiliki bidang homografi yang memetakan titik ke pesawat ini dan titik 2D yang sesuai bawah proyeksi adalah $3\times3$ $Z=0$ $H$ $M=(X,Y,0)^T$ $m$ $P=K[R|t]$

\tilde{m} = K [\begin{matrix} R^{1} & R^{2} & R^{3} & t \end{matrix}] [\begin{matrix} X \\ Y \\ 0 \\ 1 \end{matrix}]

$\tilde m = K \begin{bmatrix} R^1 & R^2 & R^3 & t \end{bmatrix} \begin{bmatrix} X \\ Y \\ 0 \\ 1 \end{bmatrix}$

= K [\begin{matrix} R^{1} & R^{2} & t \end{matrix}] [\begin{matrix} X \\ Y \\ 1 \end{matrix}]

$= K \begin{bmatrix}R^1&R^2&t\end{bmatrix} \begin{bmatrix} X \\ Y \\ 1 \end{bmatrix}$

H = K [\begin{matrix} R^{1} & R^{2} & t \end{matrix}]

$H = K \begin{bmatrix}R^1 & R^2 & t \end{bmatrix}$

Untuk menghitung homografi, kita perlu pasangan dunia berpasangan. Jika kami memiliki penanda planar, kami dapat memproses gambarnya untuk mengekstrak fitur dan kemudian mendeteksi fitur-fitur tersebut di layar untuk mendapatkan kecocokan.

Kami hanya perlu 4 pasang untuk menghitung homografi menggunakan Direct Linear Transform.

Jika saya memiliki homografi, bagaimana saya bisa mendapatkan pose kamera?

Homografi dan kamera berpose berisi informasi yang sama dan mudah untuk berpindah dari satu ke yang lain. Kolom terakhir dari keduanya adalah vektor terjemahan. Kolom satu dan dua dari homografi juga merupakan kolom satu dan dua dari matriks pose kamera. Hanya tersisa kolom tiga dari , dan karena harus ortogonal, dapat dihitung sebagai produk-silang dari kolom satu dan dua: $H$ $K[R|t]$ $H^1$ $H^2$ $R^1$ $R^2$ $R^3$ $[R|t]$

R^{3} = R^{1} \otimes R^{2}

$R^3 = R^1 \otimes R^2$

Karena redundansi perlu dinormalisasi membaginya dengan, misalnya, elemen [3,4] dari matriks. $[R|t]$

Jav_Rock
sumber

Saya pikir itu menyesatkan untuk mengatakan kalibrasi itu "mudah dan bukan tujuan CV". Dalam kasus biasa kita juga perlu memperkirakan parameter distorsi. Alih-alih kalibrasi sendiri, saya akan merekomendasikan kalibrasi planar (Zhang - Teknik Baru yang Fleksibel untuk Kalibrasi Kamera) karena lebih fleksibel jika prosedur kalibrasi terpisah dapat dilakukan. Anda juga memiliki kesalahan kecil dalam "Jika saya memiliki homografi, bagaimana saya bisa mendapatkan pose kamera?" karena Anda tidak memperhitungkan kalibrasi (H_ {calib} = K ^ -1H).

buq2

pose kamera dari homografi salah. Ada beberapa cara untuk melakukannya 'beberapa di antaranya sangat tidak sepele.

mirror2image

Saya tidak mengerti mengapa itu salah. Saya menghitungnya dengan cara ini dan bekerja. Mengapa Anda mengatakan itu salah?

Jav_Rock

Anda menulis di bagian terakhir bahwa H ^ 1 dan R ^ 1 dan sama, tetapi di bagian ke-3 Anda menyatakan bahwa H = K [RT] yang berarti bahwa R ^ 1 sebenarnya K ^ -1H ^ 1. Tapi ini tidak sepenuhnya benar karena ada jumlah H yang tak terbatas yang akan memenuhi persamaan dan akan menyebabkan masalah ketika menyelesaikan R ^ 1, R ^ 2 dan T (skala yang tidak diketahui). Jawaban Anda mengabaikan kalibrasi intrinsik dan distorsi yang kuat dan beberapa persamaan salah karena alasan ini bukan jawaban yang baik untuk pertanyaan tersebut.

buq2

Ya, saya kehilangan matriks kalibrasi pada langkah ketiga ketika saya mengambil ini dari kode saya dan saya kalikan dengan K dalam fungsi kode yang berbeda.

Jav_Rock

Sementara menjelaskan kasus dua dimensi dengan sangat baik, jawaban yang diajukan oleh Jav_Rock tidak memberikan solusi yang valid untuk pose kamera dalam ruang tiga dimensi. Perhatikan bahwa untuk masalah ini ada beberapa kemungkinan solusi.

Makalah ini menyediakan formula tertutup untuk penguraian homografinya, tetapi formulanya agak rumit.

OpenCV 3 sudah mengimplementasikan persis dekomposisi ini ( decomposeHomographyMat ). Diberikan homografi dan matriks intrinsik yang diskalakan dengan benar, fungsi ini menyediakan satu set empat kemungkinan rotasi dan terjemahan.

Matriks intrinsik dalam hal ini perlu diberikan dalam satuan piksel, yang berarti titik utama Anda biasanya (imageWidth / 2, imageHeight / 2)dan biasanya panjang fokus Anda focalLengthInMM / sensorWidthInMM * imageHeight.

Emiswelt
sumber

Apa itu matriks intrinsik yang diskalakan dengan benar?

Guig

Saya telah memperbarui jawaban saya. Silakan lihat di atas.

Emiswelt

Hey @Emiswelt, bukankah panjang fokusnya focalLengthInMM / sensorWidthInMM * imageWidth? Mengapa Anda memilih ketinggian?

El Marce

Langkah demi Langkah Estimasi Pose Kamera untuk Pelacakan Visual dan Penanda Planar

Jawaban: