Finalidade da normalização L2 para rede tripla


Respostas:


7

A distância euclidiana ao quadrado entre vetores normalizados é proporcional à semelhança de cosseno (ref: wikipedia ), portanto, a vantagem de usar a normalização é mais ou menos a vantagem da semelhança de cosseno sobre Distância euclidiana. Como mencionado na resposta de Andy Jones, sem normalização, escalar a margem por um fator apenas escalaria a incorporação correspondentemente.

AABB2=AA2+BB22ABAB=22ABAB

Outra propriedade interessante é que, com essa normalização, o valor da distância euclidiana ao quadrado é garantido dentro da faixa , o que nos poupa muito esforço ao escolher um parâmetro de margem adequado .[0,4]α

Por exemplo, em outro artigo referenciado por este artigo, ele usa o chamado modelo de mola, que se baseia na distância euclidiana quadrada (não normalizada), onde uma das dificuldades práticas é determinar uma margem e um ponto de divisão adequados, pois a incorporação muda constantemente conforme o treinamento prossegue.

Se você está procurando implementar a camada de normalização, aqui está um blog sobre as derivações e a implementação no Caffe (parte do blog é em chinês, mas não afeta a leitura).


Por que a distância euclidiana quadrada é limitada dentro de [0, 4] se, neste caso, é igual à distância do cosseno que só pode estar em [-1, 1]?
pir 27/02

@pir se você der uma olhada no lado direito da fórmula, na verdade é 2-2 * cos_sim, que fica entre [0, 4], pois cos_sim está em [-1, 1]
dontloo

1

Eu acho que é porque fornece um local e uma escala preferidos para a incorporação. O local preferido significa que a perda não é mais invariável à conversão, o que é útil quando você está trabalhando com ponto flutuante, enquanto a escala preferida fornece o significado do parâmetro de margem. Sem a restrição da hiperesfera, acho que inflar a margem por um fator de apenas escalaria todos os embeddings por um fator de .cc


Isso faz sentido, obrigado. Você sabe como os gradientes dos parâmetros são modificados por essa normalização?
pir 22/02

A abordagem típica do IIRC é simplesmente projetar de volta à hiperesfera no final de cada etapa.
Andy Jones

11
Não, de acordo com esta implementação da tocha, eu estou errado; você apenas deriva e aplica o gradiente da maneira padrão.
Andy Jones
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.