Por que usamos a divergência Kullback-Leibler em vez de entropia cruzada na função objetivo t-SNE?


39

Na minha opinião, a divergência de KL da distribuição da amostra para a distribuição verdadeira é simplesmente a diferença entre entropia cruzada e entropia.

Por que usamos a entropia cruzada para ser a função de custo em muitos modelos de aprendizado de máquina, mas usamos a divergência de Kullback-Leibler em t-sne? Existe alguma diferença na velocidade de aprendizado?


1
Veja aqui para alguma intuição em KL: stats.stackexchange.com/questions/188903/...
b Kjetil Halvorsen

Respostas:


81

A divergência de KL é uma maneira natural de medir a diferença entre duas distribuições de probabilidade. A entropia de uma distribuição p fornece o número mínimo possível de bits por mensagem que seria necessário (em média) para codificar sem perdas eventos extraídos de p . Atingir esse limite exigiria o uso de um código ideal projetado para p , que atribui palavras de código mais curtas a eventos de maior probabilidade. D K L ( p q ) pode ser interpretado como o número esperado de bits extras por mensagem necessários para codificar eventos extraídos da distribuição verdadeira pH(p)pppDKL(pq)p, se estiver usando um código ideal para a distribuição vez de p . Tem algumas boas propriedades para comparar distribuições. Por exemplo, se p e q forem iguais, a divergência KL será 0.qppq

A entropia cruzada pode ser interpretada como o número de bits por mensagem necessário (em média) para codificar eventos extraídos da distribuição verdadeira p , se estiver usando um código ideal para a distribuição q . Observe a diferença: D K L ( p q ) , q ) aumentará à medida que q se tornar cada vez mais diferente deH(p,q)pqDKL(pq) mede o número médio de bits extras por mensagem, enquanto mede o número médio de bits totais por mensagem. É verdade que, para p fixo , H ( pH(p,q)pH(p,q)q . Mas, se p não for mantido fixo, é difícil interpretar H ( p , q ) como uma medida absoluta da diferença, porque cresce com a entropia de p .ppH(p,q)p

A divergência de KL e a entropia cruzada estão relacionadas como:

DKL(pq)=H(p,q)H(p)

Podemos ver a partir dessa expressão que, quando e q são iguais, a entropia cruzada não é zero; ao contrário, é igual à entropia de p .pqp

A entropia cruzada geralmente aparece nas funções de perda no aprendizado de máquina. Em muitas dessas situações, é tratado como a distribuição 'verdadeira' e q como o modelo que estamos tentando otimizar. Por exemplo, em problemas de classificação, a perda de entropia cruzada comumente usada (também conhecida como perda de log ), mede a entropia cruzada entre a distribuição empírica dos rótulos (dadas as entradas) e a distribuição prevista pelo classificador. A distribuição empírica para cada ponto de dados simplesmente atribui a probabilidade 1 à classe desse ponto de dados e 0 a todas as outras classes. Nota lateral: a entropia cruzada nesse caso é proporcional à probabilidade logarítmica negativa, portanto, minimizá-la é equivalente a maximizar a probabilidade.pq

Observe que (a distribuição empírica neste exemplo) é fixa. Portanto, seria equivalente dizer que estamos minimizando a divergência de KL entre a distribuição empírica e a distribuição prevista. Como podemos ver na expressão acima, os dois estão relacionados pelo termo aditivop (a entropia da distribuição empírica). Como p é fixo, H ( p )H(p)pH(p)não muda com os parâmetros do modelo e pode ser desconsiderado na função de perda. Ainda podemos querer falar sobre a divergência de KL por razões teóricas / filosóficas, mas, neste caso, são equivalentes da perspectiva de resolver o problema de otimização. Isso pode não ser verdade para outros usos da entropia cruzada e da divergência de KL, onde pode variar.p

O t-SNE ajusta uma distribuição no espaço de entrada. Cada ponto de dados é mapeado no espaço de incorporação, onde a distribuição correspondente q é adequada. O algoritmo tenta ajustar a incorporação para minimizar D K L ( p q ) . Como acima, p é mantido fixo. Portanto, da perspectiva do problema de otimização, minimizar a divergência de KL e minimizar a entropia cruzada são equivalentes. De fato, van der Maaten e Hinton (2008) dizem na seção 2: "Uma medida natural da fidelidade com a qualpqDKL(pq)p modela p j iqjipji é a divergência de Kullback-Leibler (que neste caso é igual à entropia cruzada até uma constante aditiva). "

van der Maaten e Hinton (2008) . Visualização de dados usando t-SNE.


Posso de alguma forma respostas 'favoritas'? Quero salvar esta porque é uma explicação muito boa
zwep

1
Obrigado, feliz por ser útil para você. Você pode marcar uma pergunta como favorita para salvar o tópico inteiro, clicando no ícone de estrela abaixo dos botões de votação. Você pode ver sua lista de favoritos na página da sua conta.
User20160
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.