Estimativa passo a passo da posição da câmera para rastreamento visual e marcadores planares

Estou trabalhando no tópico estimativa de poses de câmera para aplicativos de realidade aumentada e rastreamento visual há um tempo e acho que, embora haja muitas informações detalhadas sobre a tarefa, ainda existem muitas confusões e mal-entendidos.

Acho que as próximas perguntas merecem uma resposta passo a passo detalhada.

O que são intrínsecos à câmera?
O que são extrínsecos de câmera?
Como computo a homografia a partir de um marcador plano?
Se eu tiver homografia, como posso fazer a pose da câmera?

— Jav_Rock
fonte

Estou confuso com a renormalização que você faz: 1. H é a homografia encontrada nos dados usando algum procedimento (por exemplo, SVD). 2. inv (K) * H = A é a coisa com a qual você trabalha aqui. Então você faz q1 = a1 / norma (a1) e q2 = a2 / norma (a2) como colunas ortonormais de uma matriz de rotação e faz q3 = q1xq2 ... Então você pega t / (algo) para obter o vetor de tradução. Como é possível dividir o q1 e o q2 por possíveis coisas diferentes, e como você escolhe o que dividir por t? Ou é a ideia de que o procedimento de SVD e multiplicação por inv (K) dar algo próximo mas não completamente ortogonal / orthonormal rotação da matriz, então th

— user2600616

Mas como eu consegui o ponto 3D (X, Y, 1)?

— precisa saber é o seguinte

Respostas:

É importante entender que o único problema aqui é obter os parâmetros extrínsecos. As intrínsecas das câmeras podem ser medidas off-line e há muitas aplicações para esse fim.

O que são intrínsecos à câmera?

Câmera parâmetros intrínsecos é geralmente chamado de matriz de calibração da câmara, . Nós podemos escrever $K$

K = [\begin{matrix} α_{u} & s & u_{0} \\ 0 & α_{v} & v_{0} \\ 0 & 0 & 1 \end{matrix}]

$K = \begin{bmatrix}\alpha_u&s&u_0\\0&\alpha_v&v_0\\0&0&1\end{bmatrix}$

Onde

e são o factor de escala no e coordenar as direcções, e são proporcionais ao comprimento focal da câmara: e . e são o número de pixels por unidade de distância nasdireções e . $\alpha_u$ $\alpha_v$ $u$ $v$ $f$ $\alpha_u = k_u f$ $\alpha_v = k_v f$ $k_u$ $k_v$ $u$ $v$
é chamado de ponto principal, geralmente as coordenadas do centro da imagem. $c=[u_0,v_0]^T$
é a inclinação, apenas diferente de zero se e não são perpendiculares. $s$ $u$ $v$

Uma câmera é calibrada quando os intrínsecos são conhecidos. Isso pode ser feito facilmente, para que não seja considerado um objetivo na visão computacional, mas um passo trivial off-line.

Alguns links:

ftp://svr-ftp.eng.cam.ac.uk/pub/reports/mendonca_self-calibration.pdf

O que são extrínsecos de câmera?

Extrínseca da câmera ou parâmetros externos é uma matriz que corresponde à transformação euclidiana de um sistema de coordenadas do mundo para o sistema de coordenadas da câmera. representa um matriz de rotação e uma tradução. $[R|t]$ $3\times4$ $R$ $3\times3$ $t$

Os aplicativos de visão computacional concentram-se na estimativa dessa matriz.

[R | t] = [\begin{matrix} R_{11} & R_{12} & R_{13} & T_{x} \\ R_{21} & R_{22} & R_{23} & T_{y} \\ R_{31} & R_{32} & R_{33} & T_{z} \end{matrix}]

$[R|t] = \begin{bmatrix} R_{11}&R_{12}&R_{13}&T_x\\R_{21}&R_{22}&R_{23}&T_y\\R_{31}&R_{32}&R_{33}&T_z \end{bmatrix}$

Como computo a homografia a partir de um marcador plano?

A homografia é uma matriz homogênea que relaciona um plano 3D e sua projeção de imagem. Se temos um plano a homografia que mapeia um ponto nesse plano e seu correspondente ponto 2D sob a projeção é $3\times3$ $Z=0$ $H$ $M=(X,Y,0)^T$ $m$ $P=K[R|t]$

\tilde{m} = K [\begin{matrix} R^{1} & R^{2} & R^{3} & t \end{matrix}] [\begin{matrix} X \\ Y \\ 0 \\ 1 \end{matrix}]

$\tilde m = K \begin{bmatrix} R^1 & R^2 & R^3 & t \end{bmatrix} \begin{bmatrix} X \\ Y \\ 0 \\ 1 \end{bmatrix}$

= K [\begin{matrix} R^{1} & R^{2} & t \end{matrix}] [\begin{matrix} X \\ Y \\ 1 \end{matrix}]

$= K \begin{bmatrix}R^1&R^2&t\end{bmatrix} \begin{bmatrix} X \\ Y \\ 1 \end{bmatrix}$

H = K [\begin{matrix} R^{1} & R^{2} & t \end{matrix}]

$H = K \begin{bmatrix}R^1 & R^2 & t \end{bmatrix}$

Para calcular a homografia, precisamos de pares de pontos câmera mundial. Se tivermos um marcador plano, podemos processar uma imagem para extrair recursos e, em seguida, detectar esses recursos na cena para obter correspondências.

Só precisamos de 4 pares para calcular a homografia usando a Transformação Linear Direta.

Se eu tiver homografia, como posso fazer a pose da câmera?

$H$ $K[R|t]$ $H^1$ $H^2$ $R^1$ $R^2$ $R^3$ $[R|t]$

R^{3} = R^{1} \otimes R^{2}

$R^3 = R^1 \otimes R^2$

Due to redundancy it is necessary to normalize $[R|t]$ dividing by, for example, element [3,4] of the matrix.

— Jav_Rock
fonte

I think it is misleading to say that calibration is "easy and not the goal of CV". In usual case we also need to estimate the distortion parameters. Instead of self calibration I would recommend planar calibration (Zhang - A Flexible New Technique for Camera Calibration) as it is more flexible if separated calibration procedure can be done. You also have small error in "If I have homography how can I get the camera pose?" as you don't take into the account the calibration (H_{calib} = K^-1H).

— buq2

camera pose from homography is wrong. There are several way to do it' some of them are highly non-trivial.

— mirror2image

I don'r see why it is wrong. I compute it this way and works. Why do you say it is wrong?

— Jav_Rock

You wrote in the last section that H^1 and R^1 and equal, but in the 3rd section you state that H=K[R T] which would mean that R^1 is actually K^-1H^1. But this is not strictly true as there is infinite number of H which will satisfy the equations and will cause problems when solving R^1, R^2 and T (the unknown scale). Your answer disregards robust intrinsic and distortion calibration and some of the equations are wrong for which reason this is not a good answer for the question.

— buq2

Yes, I was missing the kalibration matrix in step three as I took this from my code and I multiply by K in a different function of the codes.

— Jav_Rock

While explaining the two-dimensional case very well, the answer proposed by Jav_Rock does not provide a valid solution for camera poses in three-dimensional space. Note that for this problem multiple possible solutions exist.

This paper provides closed formulas for decomposing the homography, but the formulas are somewhat complex.

O OpenCV 3 já implementa exatamente essa decomposição ( decomposeHomographyMat ). Dada uma homografia e uma matriz intrínseca corretamente dimensionada, a função fornece um conjunto de quatro rotações e traduções possíveis.

A matriz intrínseca, neste caso, precisa ser dada em unidades de pixel, o que significa que seu ponto principal é geralmente (imageWidth / 2, imageHeight / 2)e sua distância focal é geralmente focalLengthInMM / sensorWidthInMM * imageHeight.

— Emiswelt
fonte

O que é uma matriz intrínseca corretamente dimensionada?

— Guig

I have updated my answer. Please see above.

— Emiswelt

Hey @Emiswelt, isn't the focal length focalLengthInMM / sensorWidthInMM * imageWidth? Why you choose the height instead?

— El Marce