Definições diferentes da função de perda de entropia cruzada

12

Comecei aprendendo sobre redes neurais com o tutorial neuralnetworksanddeeplearning dot.com. Em particular no capítulo 3, há uma seção sobre a função de entropia cruzada e define a perda de entropia cruzada como:

$C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j + (1-y_j) \ln (1 - a^L_j))$

No entanto, lendo a introdução do Tensorflow , a perda de entropia cruzada é definida como:

(ao usar os mesmos símbolos que acima) $C = -\frac{1}{n} \sum\limits_x \sum\limits_j (y_j \ln a^L_j)$

Em seguida, procurando ao redor para encontrar o que estava acontecendo, encontrei outro conjunto de notas: ( https://cs231n.github.io/linear-classify/#softmax-classifier ) que usa uma definição completamente diferente da perda de entropia cruzada, embora isso tempo para um classificador softmax e não para uma rede neural.

Alguém pode me explicar o que está acontecendo aqui? Por que existem discrepâncias entre. como as pessoas definem a perda de entropia cruzada? Existe apenas algum princípio abrangente?

— Reginald
fonte

Intimamente relacionados: stats.stackexchange.com/questions/260505/…

— Sycorax diz Reinstate Monica

18

Essas três definições são essencialmente as mesmas.

C = - \frac{1}{n} \sum_{x} \sum_{j} (y_{j} em {uma}_{j}) .

$C = -\frac{1}{n} \sum\limits_x\sum\limits_{j} (y_j \ln a_j).$

$j=2$

C = - \frac{1}{n} \sum_{x} (y_{1} em {uma}_{1} + y_{2} em {uma}_{2})

$C = -\frac{1}{n} \sum\limits_x (y_1 \ln a_1 + y_2 \ln a_2)$

\sum_{j} a_{j} = 1

$\sum_ja_j=1$

\sum_{j} y_{j} = 1

$\sum_jy_j=1$

C = - \frac{1}{n} \sum_{x} (y_{1} em {uma}_{1} + (1 - y_{1}) em (1 - {uma}_{1}))

$C = -\frac{1}{n} \sum\limits_x (y_1 \ln a_1 + (1-y_1) \ln (1-a_1))$ terceiro capítulo .

$y$ $y_k$

C_{x} = - \sum_{j} (y_{j} em {uma}_{j}) = - (0 0 + 0 0 + . . . + y_{k} em {uma}_{k}) = - em {uma}_{k} .

$C_x=-\sum\limits_{j} (y_j \ln a_j)=-(0+0+...+y_k\ln a_k)=-\ln a_k.$

C_{x} = - em ({uma}_{k}) = - em (\frac{e^{f_{k}}}{\sum_{j} e^{f_{j}}}) .

$C_x=-\ln(a_k)=-\ln\left(\frac{e^{f_k}}{\sum_je^{f_j}}\right).$

— dontloo
fonte

0

No terceiro capítulo , a equação (63) é a entropia cruzada aplicada a vários sigmóides (que podem não somar 1) enquanto na introdução de Tensoflow a entropia cruzada é calculada em uma camada de saída de softmax.

Conforme explicado por dontloo, ambas as fórmulas são essencialmente equivalentes para duas classes, mas não é quando mais de duas classes são consideradas. Softmax faz sentido para multiclasses com classes exclusivas ( isto é, quando existe apenas um rótulo por amostra, que permita a codificação quente de rótulos), enquanto (múltiplos) sigmóides podem ser usados para descrever um problema de vários rótulos (ou seja, com amostras possivelmente positivas) para várias classes).

Veja esta outra resposta também.

— xiawi
fonte