Como derivar erros na rede neural com o algoritmo de retropropagação?

Deste vídeo por Andrew Ng por volta das 5:00

insira a descrição da imagem aqui

Como são e ? De fato, o que significa? é obtido comparando com y, essa comparação não é possível para a saída de uma camada oculta, certo? $\delta_3$ $\delta_2$ $\delta_3$ $\delta_4$

machine-learning neural-networks backpropagation

— qed
fonte

O link do vídeo não está funcionando. Atualize-o ou forneça um link para o curso. Obrigado.

— MadHatter

Vou responder sua pergunta sobre o , mas lembre-se de que sua pergunta é uma subquestão de uma pergunta maior e é por isso que: $\delta_i^{(l)}$

\nabla_{i j}^{(l)} = \sum_{k} θ_{k i}^{(l + 1)} δ_{k}^{(l + 1)} * (a_{i}^{(l)} (1 - a_{i}^{(l)})) * a_{j}^{(l - 1)}

$\nabla_{ij}^{(l)} = \sum_k \theta_{ki}^{(l+1)}\delta_k^{(l+1)}*(a_i^{(l)}(1-a_i^{(l)})) * a_j^{(l-1)}$

Lembrete sobre as etapas nas redes neurais:

Etapa 1: propagação direta (cálculo de ) $a_{i}^{(l)}$
Etapa 2a: propagação reversa: cálculo dos erros $\delta_{i}^{(l)}$
Etapa 2b: propagação para trás: cálculo do gradiente de J ( ) usando os erros e , $\nabla_{ij}^{(l)}$ $\Theta$ $\delta_{i}^{(l+1)}$ $a_{i}^{(l)}$
Etapa 3: descida do gradiente: calcule o novo usando os gradientes $\theta_{ij}^{(l)}$ $\nabla_{ij}^{(l)}$

Primeiro, para entender o que o são $\delta_i^{(l)}$ , o que eles representam e por Andrew NG-lo falando sobre eles , você precisa entender o que Andrew está realmente fazendo naquele pointand porque nós fazemos todos esses cálculos: ele está calculando o gradiente de $\nabla_{ij}^{(l)}$ $\theta_{ij}^{(l)}$ a ser usado no algoritmo de descida Gradiente.

O gradiente é definido como:

\nabla_{i j}^{(l)} = \frac{\partial C}{\partial θ_{i j}^{(l)}}

$\nabla_{ij}^{(l)} = \dfrac {\partial C} {\partial \theta_{ij}^{(l)}}$

Como não podemos realmente resolver essa fórmula diretamente, vamos modificá-la usando DOIS TRUQUES MÁGICOS para chegar a uma fórmula que realmente podemos calcular. Esta fórmula final utilizável é:

\nabla_{i j}^{(l)} = θ^{(l + 1)^{T}} δ^{(l + 1)} . * (a_{i}^{(l)} (1 - a_{i}^{(l)})) * a_{j}^{(l - 1)}

$\nabla_{ij}^{(l)} = \theta^{(l+1)^T}\delta^{(l+1)}.*(a_i^{(l)}(1-a_i^{(l)})) * a_j^{(l-1)}$

Para chegar a esse resultado, o PRIMEIRO TRUQUE MÁGICO é que podemos escrever o gradiente de usando : $\nabla_{ij}^{(l)}$ $\theta_{ij}^{(l)}$ $\delta_i^{(l)}$

\nabla_{i j}^{(l)} = δ_{i}^{(l)} * a_{j}^{(l - 1)}

$\nabla_{ij}^{(l)} = \delta_i^{(l)} * a_j^{(l-1)}$ Com definido (apenas para o índice L) como:

δ_{i}^{(L)}

$\delta_i^{(L)}$

δ_{i}^{(L)} = \frac{\partial C}{\partial z_{i}^{(l)}}

$\delta_i^{(L)} = \dfrac {\partial C} {\partial z_i^{(l)}}$

E então o SEGUNDO TRUQUE MÁGICO usando a relação entre e , para definir os outros índices, $\delta_i^{(l)}$ $\delta_i^{(l+1)}$

δ_{i}^{(l)} = θ^{(l + 1)^{T}} δ^{(l + 1)} . * (a_{i}^{(l)} (1 - a_{i}^{(l)}))

$\delta_i^{(l)} = \theta^{(l+1)^T}\delta^{(l+1)}.*(a_i^{(l)}(1-a_i^{(l)}))$

E como eu disse, finalmente podemos escrever uma fórmula para a qual conhecemos todos os termos:

\nabla_{i j}^{(l)} = θ^{(l + 1)^{T}} δ^{(l + 1)} . * (a_{i}^{(l)} (1 - a_{i}^{(l)})) * a_{j}^{(l - 1)}

$\nabla_{ij}^{(l)} = \theta^{(l+1)^T}\delta^{(l+1)}.*(a_i^{(l)}(1-a_i^{(l)})) * a_j^{(l-1)}$

DEMONSTRAÇÃO DO PRIMEIRO TRUQUE MÁGICO: $\nabla_{ij}^{(l)} = \delta_i^{(l)} * a_j^{(l-1)}$

Definimos:

\nabla_{i j}^{(l)} = \frac{\partial C}{\partial θ_{i j}^{(l)}}

$\nabla_{ij}^{(l)} = \dfrac {\partial C} {\partial \theta_{ij}^{(l)}}$

A regra Chain para dimensões mais altas (você REALMENTE deve ler esta propriedade da regra Chain) nos permite escrever:

\nabla_{i j}^{(l)} = \sum_{k} \frac{\partial C}{\partial z_{k}^{(l)}} * \frac{\partial z_{k}^{(l)}}{\partial θ_{i j}^{(l)}}

$\nabla_{ij}^{(l)} = \sum_k \dfrac {\partial C} {\partial z_k^{(l)}} * \dfrac {\partial z_k^{(l)}} {\partial \theta_{ij}^{(l)}}$

No entanto, como:

z_{k}^{(l)} = \sum_{m} θ_{k m}^{(l)} * a_{m}^{(l - 1)}

$z_k^{(l)} = \sum_m \theta_{km}^{(l)} * a_m^{(l-1)}$

Podemos então escrever:

\frac{\partial z_{k}^{(l)}}{\partial θ_{i j}^{(l)}} = \frac{\partial}{\partial θ_{i j}^{(l)}} \sum_{m} θ_{k m}^{(l)} * a_{m}^{(l - 1)}

$\dfrac {\partial z_k^{(l)}} {\partial \theta_{ij}^{(l)}} = \dfrac {\partial}{\partial \theta_{ij}^{(l)}} \sum_m \theta_{km}^{(l)} * a_m^{(l-1)}$

Devido à linearidade da diferenciação [(u + v) '= u' + v '], podemos escrever:

\frac{\partial z_{k}^{(l)}}{\partial θ_{i j}^{(l)}} = \sum_{m} \frac{\partial θ_{k m}^{(l)}}{\partial θ_{i j}^{(l)}} * a_{m}^{(l - 1)}

$\dfrac {\partial z_k^{(l)}} {\partial \theta_{ij}^{(l)}} = \sum_m\dfrac {\partial\theta_{km}^{(l)}} {\partial \theta_{ij}^{(l)}}* a_m^{(l-1)}$

com:

i f k, m \neq i, j, \frac{\partial θ_{k m}^{(l)}}{\partial θ_{i j}^{(l)}} * a_{m}^{(l - 1)} = 0

$if k,m \neq i,j, \ \ \dfrac {\partial\theta_{km}^{(l)}} {\partial \theta_{ij}^{(l)}}* a_m^{(l-1)} = 0$

i f k, m = i, j, \frac{\partial θ_{k m}^{(l)}}{\partial θ_{i j}^{(l)}} * a_{m}^{(l - 1)} = \frac{\partial θ_{i j}^{(l)}}{\partial θ_{i j}^{(l)}} * a_{j}^{(l - 1)} = a_{j}^{(l - 1)}

$if k,m = i,j, \ \ \dfrac {\partial\theta_{km}^{(l)}} {\partial \theta_{ij}^{(l)}}* a_m^{(l-1)} = \dfrac {\partial\theta_{ij}^{(l)}} {\partial \theta_{ij}^{(l)}}* a_j^{(l-1)} = a_j^{(l-1)}$

Então, para k = i (caso contrário, é claramente igual a zero):

\frac{\partial z_{i}^{(l)}}{\partial θ_{i j}^{(l)}} = \frac{\partial θ_{i j}^{(l)}}{\partial θ_{i j}^{(l)}} * a_{j}^{(l - 1)} + \sum_{m \neq j} \frac{\partial θ_{i m}^{(l)}}{\partial θ_{i j}^{(l)}} * a_{j}^{(l - 1)} = a_{j}^{(l - 1)} + 0

$\dfrac {\partial z_i^{(l)}} {\partial \theta_{ij}^{(l)}} = \dfrac {\partial\theta_{ij}^{(l)}} {\partial \theta_{ij}^{(l)}}* a_j^{(l-1)} + \sum_{m \neq j}\dfrac {\partial\theta_{im}^{(l)}} {\partial \theta_{ij}^{(l)}}* a_j^{(l-1)} = a_j^{(l-1)} + 0$

Finalmente, para k = i:

\frac{\partial z_{i}^{(l)}}{\partial θ_{i j}^{(l)}} = a_{j}^{(l - 1)}

$\dfrac {\partial z_i^{(l)}} {\partial \theta_{ij}^{(l)}} = a_j^{(l-1)}$

Como resultado, podemos escrever nossa primeira expressão do gradiente : $\nabla_{ij}^{(l)}$

\nabla_{i j}^{(l)} = \frac{\partial C}{\partial z_{i}^{(l)}} * \frac{\partial z_{i}^{(l)}}{\partial θ_{i j}^{(l)}}

$\nabla_{ij}^{(l)} = \dfrac {\partial C} {\partial z_i^{(l)}} * \dfrac {\partial z_i^{(l)}} {\partial \theta_{ij}^{(l)}}$

O que equivale a:

\nabla_{i j}^{(l)} = \frac{\partial C}{\partial z_{i}^{(l)}} * a_{j}^{(l - 1)}

$\nabla_{ij}^{(l)} = \dfrac {\partial C} {\partial z_i^{(l)}} * a_j^{(l-1)}$

Ou:

\nabla_{i j}^{(l)} = δ_{i}^{(l)} * a_{j}^{(l - 1)}

$\nabla_{ij}^{(l)} = \delta_i^{(l)} * a_j^{(l-1)}$

DEMONSTRAÇÃO DO SEGUNDO TRUQUE MÁGICO : ou: $\delta_i^{(l)} = \theta^{(l+1)^T}\delta^{(l+1)}.*(a_i^{(l)}(1-a_i^{(l)}))$

δ^{(l)} = θ^{(l + 1)^{T}} δ^{(l + 1)} . * (a^{(l)} (1 - a^{(l)}))

$\delta^{(l)} = \theta^{(l+1)^T}\delta^{(l+1)}.*(a^{(l)}(1-a^{(l)}))$

Lembre-se de que colocamos:

δ^{(l)} = \frac{\partial C}{\partial z^{(l)}} a n d δ_{i}^{(l)} = \frac{\partial C}{\partial z_{i}^{(l)}}

$\delta^{(l)} = \dfrac {\partial C} {\partial z^{(l)}} \ \ \ and \ \ \ \delta_i^{(l)} = \dfrac {\partial C} {\partial z_i^{(l)}}$

Novamente, a regra Cadeia para dimensões mais altas nos permite escrever:

δ_{i}^{(l)} = \sum_{k} \frac{\partial C}{\partial z_{k}^{(l + 1)}} \frac{\partial z_{k}^{(l + 1)}}{\partial z_{i}^{(l)}}

$\delta_i^{(l)} = \sum_k \dfrac {\partial C} {\partial z_k^{(l+1)}} \dfrac {\partial z_k^{(l+1)}} {\partial z_i^{(l)}}$

Substituindo por , temos: $\dfrac {\partial C} {\partial z_k^{(l+1)}}$ $\delta_k^{(l+1)}$

δ_{i}^{(l)} = \sum_{k} δ_{k}^{(l + 1)} \frac{\partial z_{k}^{(l + 1)}}{\partial z_{i}^{(l)}}

$\delta_i^{(l)} = \sum_k \delta_k^{(l+1)} \dfrac {\partial z_k^{(l+1)}} {\partial z_i^{(l)}}$

Agora, vamos nos concentrar em . Nós temos: $\dfrac {\partial z_k^{(l+1)}} {\partial z_i^{(l)}}$

z_{k}^{(l + 1)} = \sum_{j} θ_{k j}^{(l + 1)} * a_{j}^{(l)} = \sum_{j} θ_{k j}^{(l + 1)} * g (z_{j}^{(l)})

$z_k^{(l+1)} = \sum_j \theta_{kj}^{(l+1)} * a_j^{(l)} = \sum_j \theta_{kj}^{(l+1)} * g(z_j^{(l)})$

Em seguida, derivamos essa expressão em relação a : $z_k^{(i)}$

\frac{\partial z_{k}^{(l + 1)}}{\partial z_{i}^{(l)}} = \frac{\partial \sum_{j} θ_{k j}^{(l)} * g (z_{j}^{(l)})}{\partial z_{i}^{(l)}}

$\dfrac {\partial z_k^{(l+1)}} {\partial z_i^{(l)}} = \dfrac {\partial \sum_j \theta_{kj}^{(l)} * g(z_j^{(l)}) }{\partial z_i^{(l)}}$

Devido à linearidade da derivação, podemos escrever:

\frac{\partial z_{k}^{(l + 1)}}{\partial z_{i}^{(l)}} = \sum_{j} θ_{k j}^{(l)} * \frac{\partial g (z_{j}^{(l)})}{\partial z_{i}^{(l)}}

$\dfrac {\partial z_k^{(l+1)}} {\partial z_i^{(l)}} = \sum_j \theta_{kj}^{(l)} * \dfrac {\partial g(z_j^{(l)}) }{\partial z_i^{(l)}}$

Se j i, então $\neq$ $\dfrac {\partial \theta_{kj}^{(l)} * g(z_j^{(l)})} {\partial z_i^{(l)}} = 0$

Como consequência:

\frac{\partial z_{k}^{(l + 1)}}{\partial z_{i}^{(l)}} = \frac{θ_{k i}^{(l)} * \partial g (z_{i}^{(l)})}{\partial z_{i}^{(l)}}

$\dfrac {\partial z_k^{(l+1)}} {\partial z_i^{(l)}} = \dfrac {\theta_{ki}^{(l)} * \partial g(z_i^{(l)}) }{\partial z_i^{(l)}}$

E depois:

δ_{i}^{(l)} = \sum_{k} δ_{k}^{(l + 1)} θ_{k i}^{(l)} * \frac{\partial g (z_{i}^{(l)})}{\partial z_{i}^{(l)}}

$\delta_i^{(l)} = \sum_k \delta_k^{(l+1)} \theta_{ki}^{(l)} * \dfrac { \partial g(z_i^{(l)}) }{\partial z_i^{(l)}}$

Como g '(z) = g (z) (1-g (z)), temos:

δ_{i}^{(l)} = \sum_{k} δ_{k}^{(l + 1)} θ_{k i}^{(l)} * g (z_{i}^{(l)}) (1 - g (z_{i}^{(l)})

$\delta_i^{(l)} = \sum_k \delta_k^{(l+1)} \theta_{ki}^{(l)} * g(z_i^{(l)})(1-g(z_i^{(l)})$

E como , temos: $g(z_i^{(l)} = a_i^{(l)}$

δ_{i}^{(l)} = \sum_{k} δ_{k}^{(l + 1)} θ_{k i}^{(l + 1)} * a_{i}^{(l)} (1 - a_{i}^{(l)})

$\delta_i^{(l)} = \sum_k \delta_k^{(l+1)} \theta_{ki}^{(l+1)} * a_i^{(l)}(1-a_i^{(l)})$

E, finalmente, usando a notação vetorizada:

\nabla_{i j}^{(l)} = [θ^{(l + 1)^{T}} δ^{(l + 1)} * (a_{i}^{(l)} (1 - a_{i}^{(l)}))] * [a_{j}^{(l - 1)}]

$\nabla_{ij}^{(l)} = [\theta^{(l+1)^T}\delta^{(l+1)}*(a_i^{(l)}(1-a_i^{(l)}))] * [a_j^{(l-1)}]$

— tmangin
fonte

Obrigado pela sua resposta. Eu votei em você !! Você poderia, por favor, citar as fontes que

— indicou

@tmangin: Após a conversa de Andrew Ng, temos é o erro do nó j na camada l. Como você conseguiu a definição de .

δ_{j}^{(i)}

$\delta_j^{(i)}$

δ_{j}^{(i)} = \frac{\partial C}{\partial Z_{j}^{(l)}}

$\delta_j^{(i)}=\frac{\partial C}{\partial Z_j^{(l)}}$

— Phương

@phuong Na verdade, você está certo em perguntar: apenas o com o maior índice "l" L é definido como Enquanto os deltas com índices "l" inferiores são definidos pela seguinte fórmula:

δ_{i}^{(L)}

$\delta_i^{(L)}$

δ_{i}^{(L)} = \frac{\partial C}{\partial z_{i}^{(l)}}

$\delta_i^{(L)} = \dfrac {\partial C} {\partial z_i^{(l)}}$

δ_{i}^{(l)} = θ^{(l + 1)^{T}} δ^{(l + 1)} . * (a_{i}^{(l)} (1 - a_{i}^{(l)}))

$\delta_i^{(l)} = \theta^{(l+1)^T}\delta^{(l+1)}.*(a_i^{(l)}(1-a_i^{(l)}))$

— tmangin

Eu recomendo a leitura da notação vetorial backprop de cálculo dos gradientes.

— CKM 26/03

Sua fórmula final utilizável não é a que Andrew Ng possuía, o que torna realmente frustrante seguir sua prova. Ele tinha ∇ (l) ij = θ (l) Tδ (l + 1). ∗ (a (l) i (1-a (l) i)) ∗ a (l − 1) j, não θ (l + 1) Tδ (l + 1)

— Aziz Javed

Este cálculo ajuda. A única diferença deste resultado para o resultado de Andrew é por causa da definição de teta. Na definição de Andrew, z (l + 1) = teta (l) * a (l). Neste cálculo, z (l + 1) = teta (l + 1) * a (l). Então, na verdade, não há diferença.

— Canção Qing
fonte