A distância euclidiana ao quadrado entre vetores normalizados é proporcional à semelhança de cosseno (ref: wikipedia ),
portanto, a vantagem de usar a normalização é mais ou menos a vantagem da semelhança de cosseno sobre Distância euclidiana. Como mencionado na resposta de Andy Jones, sem normalização, escalar a margem por um fator apenas escalaria a incorporação correspondentemente.
∥A∥A∥−B∥B∥∥2=∥A∥A∥∥2+∥B∥B∥∥2−2A⋅B∥A∥∥B∥=2−2A⋅B∥A∥∥B∥
Outra propriedade interessante é que, com essa normalização, o valor da distância euclidiana ao quadrado é garantido dentro da faixa , o que nos poupa muito esforço ao escolher um parâmetro de margem adequado .[0,4]α
Por exemplo, em outro artigo referenciado por este artigo, ele usa o chamado modelo de mola, que se baseia na distância euclidiana quadrada (não normalizada), onde uma das dificuldades práticas é determinar uma margem e um ponto de divisão adequados, pois a incorporação muda constantemente conforme o treinamento prossegue.
Se você está procurando implementar a camada de normalização, aqui está um blog sobre as derivações e a implementação no Caffe (parte do blog é em chinês, mas não afeta a leitura).