Intuitivamente, por que a entropia cruzada é uma medida da distância de duas distribuições de probabilidade?

Para duas distribuições discretas e , a entropia cruzada é definida como $p$ $q$

H (p, q) = - \sum_{x} p (x) \log q (x) .

$H(p,q)=-\sum_x p(x)\log q(x).$

Eu me pergunto por que isso seria uma medida intuitiva de distância entre duas distribuições de probabilidade?

Vejo que é a entropia de , que mede a "surpresa" de . é a medida que substitui parcialmente por . Ainda não entendo o significado intuitivo por trás da definição. $H(p,p)$ $p$ $p$ $H(p,q)$ $p$ $q$

probability distributions cross-entropy

— Kadistar
fonte

Eu recomendo que você procure a definição matemática de métrica (e distância). geralmente, seguir essas propriedades é o mínimo que uma função deve seguir, pois existe uma distância. Espero que ajude. Embora pareça

. Intuitivamente, uma vez que é uma função que faz parte da divergência KL, eu assumiria que é uma espécie de divergência de peq compensada pela entropia p. Embora, é apenas um palpite. Além disso, a divergência não é uma métrica / distância, então eu ficaria surpreso se a Entropia cruzada for.

H (p, q) = H (p) + D_{K L} (p | | q)

$H(p,q) = H(p) + D_{KL}(p || q )$

— Charlie Parker

Então entendimento divergência Kullback_leibler ajuda a entender entropia cruzada: stats.stackexchange.com/questions/188903/...

— b Kjetil Halvorsen

Aqui é um grande vídeo explicando KL Divergência de uma forma clara e simples: youtube.com/watch?v=ErfnhcEV1O8

— Katherine Chen

Veja se essa "Intuição por trás da entropia cruzada" ajuda: medium.com/@siddharth.4oct/…

— Siddharth Roy

Minimizar a entropia cruzada é frequentemente usado como objetivo de aprendizado em modelos generativos, em que p é a distribuição verdadeira e q é a distribuição aprendida.

A entropia cruzada de p e q é igual à entropia de p mais a divergência de KL entre p e q.

$H(p, q) = H(p) + D_{KL}(p||q)$

$H(p)$ $p$

Observe que a divergência de KL não é uma métrica de distância adequada. Por um lado, não é simétrico em peq. Se você precisar de uma métrica de distância para distribuições de probabilidade, precisará usar outra coisa. Mas, se você estiver usando a palavra "distância" informalmente, poderá usar a divergência KL.

— Aaron
fonte

por que você pode pensar em p como uma constante? O que você está aprendendo"? q? A pergunta original não disse nada sobre a aprendizagem, por isso, eu estaria interessado em entender melhor o que você quis dizer :)

— Charlie Parker

editou para torná-lo mais claro. p é a distribuição que vem dos dados de treinamento eq é aprendida pelo modelo.

— Aaron