Vetorização de perda de entropia cruzada

9

Estou lidando com um problema relacionado à localização do gradiente da função de perda de entropia cruzada no parâmetro que: $\theta$

$CE(\theta) = -\sum\nolimits_{i}{y_i*log({\hat{y}_{i}})}$

Onde, e é uma entrada de vetor. $\hat{y}_{i} = softmax(\theta_i)$ $\theta_i$

Além disso, é um vetor quente da classe correta e é a previsão para cada classe usando a função softmax. $y$ $\hat{y}$

Portanto, por exemplo, vamos ter e $y_i = \begin{pmatrix}0\\0\\0\\1\\0\end{pmatrix}$ $\hat{y}_{i} = \begin{pmatrix}0.10\\0.20\\0.10\\0.40\\0.20\end{pmatrix}$

Para encontrar a derivada parcial $\frac{\partial{CE(\theta)}}{\partial{\theta{ik}}} = -{y_{ik} - \hat{y}_{ik}}$

A partir daí, para cada os gradientes parciais individuais serão $i$ $\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = \begin{pmatrix}y_{i1} - \hat{y}_{i1}\\y_{i2} - \hat{y}_{i2}\\y_{i3} - \hat{y}_{i3}\\y_{i4} - \hat{y}_{i4}\\y_{i5} - \hat{y}_{i5}\end{pmatrix}$

Mas isso não é verdade porque os gradientes devem ser 0 para todas as outras linhas, exceto para a quarta linha, porque usamos a propriedade do vetor quente. Portanto, o gradiente real deve ser $\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = \begin{pmatrix}0\\0\\0\\y_{i4} - \hat{y}_{i4}\\0\end{pmatrix}$

E, portanto, os gradientes para tudo o que deveria ser $i$ $\frac{\partial{CE(\theta)}}{\partial{\theta}} = \left( \begin{array}{ccc} 0 & 0 & 0 & y_{i4} - \hat{y}_{i4} & 0 \\ 0 & 0 & y_{i3} - \hat{y}_{i3} & 0 & 0 \\ ... \\ 0 & y_{i2} - \hat{y}_{i2} & 0 & 0 & 0 \end{array} \right)$

Mas isso não é igual a . Portanto, não devemos chamar o gradiente da função de entropia cruzada uma diferença de vetor entre o previsto e o original. $\hat{y} - y$

Alguém pode esclarecer isso?

UPDATE: Corrigida minha derivação

$\theta = \left( \begin{array}{c} \theta_{1} \\ \theta_{2} \\ \theta_{3} \\ \theta_{4} \\ \theta_{5} \\ \end{array} \right)$

$CE(\theta) = -\sum\nolimits_{i}{y_i*log({\hat{y}_{i}})}$

Onde, e é uma entrada de vetor. $\hat{y}_{i} = softmax(\theta_i)$ $\theta_i$

Além disso, é um vetor quente da classe correta e é a previsão para cada classe usando a função softmax. $y$ $\hat{y}$

$\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = - (log(\hat{y}_{k}))$

UPDATE: Removido o índice de e $y$ $\hat{y}$ Portanto, por exemplo, vamos ter e $y = \begin{pmatrix}0\\0\\0\\1\\0\end{pmatrix}$ $\hat{y} = \begin{pmatrix}0.10\\0.20\\0.10\\0.40\\0.20\end{pmatrix}$

UPDATE: Corrigido: eu estava usando derivada wrt , deveria ser apenas wrt . $\theta_{ik}$ $\theta_{i}$ Para encontrar a derivada parcial $\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = -{y_{k} - \hat{y}_{k}}$

A partir daí, para cada os gradientes parciais individuais serão $i$ $\frac{\partial{CE(\theta)}}{\partial{\theta}} = \begin{pmatrix}y_{1} - \hat{y}_{1}\\y_{2} - \hat{y}_{2}\\y_{3} - \hat{y}_{3}\\y_{4} - \hat{y}_{4}\\y_{5} - \hat{y}_{5}\end{pmatrix}$

O que aconteceu acima acontece porque E Tomando a derivada parcial de wrt , obtemos: $CE(\theta) = -(y_k*log({\hat{y}_{k}}))$ $\hat{y}_{k} = log(softmax(\theta_k)) = \theta_k - log(\sum\nolimits_{j}{exp(\theta_j)})$ $CE(\theta)$ $\theta_i$

$\frac{\partial{CE(\theta)}}{\partial{\theta{i}}} = - (\frac{\partial{\theta_k}}{\partial{\theta{i}}} - softmax(\theta_i))$

PASSO PRINCIPAL: O facto de e cria o vetor que completa a prova. $\frac{\partial{\theta_k}}{\partial{\theta{i}}} = 0, i \neq k$ $\frac{\partial{\theta_k}}{\partial{\theta{i}}} = 1, i = k$ $\frac{\partial{CE(\theta)}}{\partial{\theta}} = \hat{y} - y$

machine-learning neural-networks

— Shubhanshu Mishra
fonte

2

Não, os gradientes não devem ser zero para os outros componentes. Se sua previsão é para alguns e sua observação , você previu demais por . $\hat y_{ij}$ $i,j$ $y_{ij}=0$ $\hat y_{ij}$

— Neil G
fonte

Mas sempre será um valor e a observação real. E porque usamos o fato de ser um vetor quente, portanto, a derivada parcial , dado Estou cometendo um erro na diferenciação?

{\hat{y}}_{i j}

$\hat{y}_{ij}$

y_{i j}

$y_{ij}$

y_{i}

$y_i$

\frac{\partial C E (θ)}{\partial θ i j} = 0, \forall j \neq k

$\frac{\partial{CE(\theta)}}{\partial{\theta{ij}}} = 0, \forall j \neq k$

y_{i k} = 1

$y_{ik} = 1$

— Shubhanshu Mishra

1

Obrigado pela sua contribuição @ neil-g. Consegui corrigir minha derivação do gradiente.

— Shubhanshu Mishra 01/05/19

15

O seguinte é o mesmo conteúdo da edição, mas no formato passo a passo (para mim) um pouco mais claro:

Estamos tentando provar que:

$\frac{\partial{CE}}{\partial{\theta}} = \hat{y} - y$

dado

$CE(\theta) = -\sum\nolimits_{i}{y_i*log({\hat{y}_{i}})}$

e

$\hat{y}_{i} = \frac{exp(\theta_i)}{\sum\nolimits_{j}{exp(\theta_j)}}$

Sabemos que para e , então: $y_{j} = 0$ $j \neq k$ $y_k = 1$

$CE(\theta) = -\ log({\hat{y}_{k}})$

$= - \ log(\frac{exp(\theta_k)}{\sum\nolimits_{j}{exp(\theta_j)}})$

$= - \ \theta_k + log(\sum\nolimits_{j}{exp(\theta_j)})$

$\frac{\partial{CE}}{\partial{\theta}} = - \frac{\partial{\theta_k}}{\partial{\theta}} + \frac{\partial}{\partial{\theta}} log(\sum\nolimits_{j}{exp(\theta_j))}$

Use o fato de que e para , para mostrar isso. $\frac{\partial{\theta_k}}{\partial{\theta_k}} = 1$ $\frac{\partial{\theta_k}}{\partial{\theta_q}} = 0$ $q \neq k$

$\frac{\partial{\theta_k}}{\partial{\theta}} = y$

Para a segunda parte, escrevemos a derivada para cada elemento individual de e usamos a regra da cadeia para obter: $\theta$

$\frac{\partial}{\partial{\theta_i}} log(\sum\nolimits_{j}{exp(\theta_j))} = \frac{exp(\theta_i)}{\sum\nolimits_{j}{exp(\theta_j)}} = \hat{y}_{i}$

Conseqüentemente,

$\frac{\partial{CE}}{\partial{\theta}} = \frac{\partial}{\partial{\theta}} log(\sum\nolimits_{j}{exp(\theta_j))} - \frac{\partial{\theta_k}}{\partial{\theta}} = \hat{y}$ - y

— Maarten
fonte