Você está no caminho certo.
Invariância significa que você pode reconhecer um objeto como um objeto, mesmo quando sua aparência varia de alguma maneira. Isso geralmente é bom, porque preserva a identidade, a categoria do objeto (etc) entre as alterações nas especificidades da entrada visual, como posições relativas do visualizador / câmera e do objeto.
A imagem abaixo contém muitas vistas da mesma estátua. Você (e redes neurais bem treinadas) pode reconhecer que o mesmo objeto aparece em todas as imagens, mesmo que os valores reais dos pixels sejam bem diferentes.
Observe que a tradução aqui tem um significado específico na visão, emprestado da geometria. Não se refere a nenhum tipo de conversão, ao contrário, digamos, de uma tradução do francês para o inglês ou entre os formatos de arquivo. Em vez disso, significa que cada ponto / pixel na imagem foi movido na mesma quantidade na mesma direção. Como alternativa, você pode pensar na origem como tendo sido deslocada uma quantidade igual na direção oposta. Por exemplo, podemos gerar a 2ª e a 3ª imagens na primeira linha da primeira movendo cada pixel 50 ou 100 pixels para a direita.
fgf∗ gfg
Uma abordagem para o reconhecimento de objeto invariável à tradução é pegar um "modelo" do objeto e envolvê-lo com todos os locais possíveis do objeto na imagem. Se você receber uma resposta grande em um local, isso sugere que um objeto semelhante ao modelo está localizado nesse local. Essa abordagem geralmente é chamada de correspondência de modelo .
Invariância vs. Equivariância
A resposta de Santanu_Pattanayak ( aqui ) aponta que há uma diferença entre invariância de tradução e equivalência de tradução . Invariância de conversão significa que o sistema produz exatamente a mesma resposta, independentemente de como sua entrada é alterada. Por exemplo, um detector de rosto pode relatar "FACE ENCONTRADO" para todas as três imagens na linha superior. Equivariância significa que o sistema funciona igualmente bem em todas as posições, mas sua resposta muda com a posição do alvo. Por exemplo, um mapa de calor de "sem rosto" teria solavancos semelhantes à esquerda, centro e direita quando processa a primeira linha de imagens.
Essa é algumas vezes uma distinção importante, mas muitas pessoas chamam os dois fenômenos de "invariância", especialmente porque geralmente é trivial converter uma resposta equivariante em uma invariável - apenas desconsidere todas as informações de posição).