Qual é a história por trás da história sobre o descritor SIFT?


9

O seguinte é do artigo de Lowe 2004 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).

Uma abordagem óbvia seria amostrar as intensidades da imagem local em torno do ponto-chave na escala apropriada e combiná-las usando uma medida de correlação normalizada. No entanto, a simples correlação de amostras de imagens é altamente sensível a alterações que causam erros de registro de amostras, como alterações no ponto de vista final ou 3D ou deformações não rígidas. Uma abordagem melhor foi demonstrada por Edelman, Intrator e Poggio (1997). Sua representação proposta foi baseada em um modelo de visão biológica, em particular neurônios complexos no córtex visual primário.Esses neurônios complexos respondem a um gradiente em uma orientação e frequência espacial específicas, mas a localização do gradiente na retina pode mudar sobre um pequeno campo receptivo, em vez de ser precisamente localizada. Edelman et al. a hipótese de que a função desses neurônios complexos era permitir a correspondência e o reconhecimento de objetos 3D a partir de vários pontos de vista.

Estou tentando entender o descritor SIFT. Eu entendo o estágio anterior (detector de ponto-chave).

Não sei por que é implementado dessa maneira. Eu quero conhecer a história por trás da história.

Respostas:


1

64×64

64×6416×16

Para cada remendo, calculamos os gradientes e, em seguida, encontramos a direção dominante dos gradientes (que possui alguns detalhes); depois, tomando a direção dominante como a direção de referência, dividiremos a região angular de 360 ​​graus a 8, cada uma com 45 graus, e somaremos a magnitude de cada gradiente que se encontra em cada região angular.

Podemos considerar isso como distribuição ou histograma de 8 bin de direção do gradiente (considerando que gradientes fortes têm mais informações, temos que usá-los com maior peso no cálculo da distribuição, para que possamos usar a magnitude deles como peso, o que leva à soma da magnitude). Então normalizaremos esses histogramas.

No final de cada patch, temos um histograma de 8 bin e 16 patches, o que leva a um descritor de 128 números.

Ao encontrar a direção dominante, nosso descritor também se torna invariante na rotação. Usando gradientes, nosso descritor se torna invariável em relação à iluminação da linha de base e normalizando os histogramas obtidos, nosso descritor se torna invariável ao contraste da imagem.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.