O termo "invariável à escala" significa o seguinte aqui. Digamos que você tenha a imagem I e tenha detectado um recurso (também conhecido como ponto de interesse) f em algum local (x, y) e em alguns níveis de escala s . Agora, digamos que você tenha uma imagem I ' , que é uma versão em escala de I (redução da amostra, por exemplo). Então, se o seu detector de característica for invariável à escala, você poderá detectar a característica correspondente f ' em I' no local correspondente (x ', y') e na escala correspondente s ' , onde (x, y, s) e (x ', y', s ') são relacionados pela transformação de escala apropriada.
Em outras palavras, se o seu detector invariável em escala detectou um ponto de recurso correspondente ao rosto de alguém e, em seguida, você aumenta ou diminui o zoom com a câmera na mesma cena, você ainda deve detectar um ponto de recurso nesse rosto.
Obviamente, você também desejaria um "descritor de recursos" que permitisse combinar os dois recursos, exatamente o que o SIFT oferece a você.
Portanto, correndo o risco de confundi-lo ainda mais, há duas coisas que são invariáveis em escala aqui. Um é o detector de ponto de interesse do DoG, que é invariável à escala, porque detecta um tipo específico de recurso de imagem (blobs), independentemente da sua escala. Em outras palavras, o detector DoG detecta bolhas de qualquer tamanho. A outra coisa invariante na escala é o descritor de recursos, que é um histograma de orientação de gradiente, que permanece mais ou menos semelhante para o mesmo recurso de imagem, apesar de uma mudança na escala.
A propósito, a diferença de gaussianos é usada aqui como uma aproximação ao filtro Laplaciano de Gaussiano.