O seguinte é do artigo de Lowe 2004 ( http://www.cs.ubc.ca/~lowe/papers/ijcv04.pdf ).
Uma abordagem óbvia seria amostrar as intensidades da imagem local em torno do ponto-chave na escala apropriada e combiná-las usando uma medida de correlação normalizada. No entanto, a simples correlação de amostras de imagens é altamente sensível a alterações que causam erros de registro de amostras, como alterações no ponto de vista final ou 3D ou deformações não rígidas. Uma abordagem melhor foi demonstrada por Edelman, Intrator e Poggio (1997). Sua representação proposta foi baseada em um modelo de visão biológica, em particular neurônios complexos no córtex visual primário.Esses neurônios complexos respondem a um gradiente em uma orientação e frequência espacial específicas, mas a localização do gradiente na retina pode mudar sobre um pequeno campo receptivo, em vez de ser precisamente localizada. Edelman et al. a hipótese de que a função desses neurônios complexos era permitir a correspondência e o reconhecimento de objetos 3D a partir de vários pontos de vista.
Estou tentando entender o descritor SIFT. Eu entendo o estágio anterior (detector de ponto-chave).
Não sei por que é implementado dessa maneira. Eu quero conhecer a história por trás da história.