A imagem mostra uma camada típica em algum lugar da rede feed forward:

$a_i^{(k)}$ é o valor de ativação do neurônio na camada . $i^{th}$ $k^{th}$

$W_{ij}^{(k)}$ é o peso que liga neurónio na camada para a neurónio na camada. $i^{th}$ $k^{th}$ $j^{th}$ $(k+1)^{th}$

$z_j^{(k+1)}$ é o valor da função de pré-ativação do neurônio na camada . Às vezes, isso é chamado de "logit", quando usado com funções logísticas. $j^{th}$ $(k+1)^{th}$

As equações de avanço de alimentação são as seguintes:

$z_j^{(k+1)} = \sum_i W_{ij}^{(k)}a_i^{(k)}$

$a_j^{(k+1)} = f(z_j^{(k+1)})$

Por uma questão de simplicidade, o viés é incluído como uma ativação fictícia de 1 e é implícito usado nas iterações sobre . $i$

Posso derivar as equações para propagação reversa em uma rede neural de feed-forward, usando regra de cadeia e identificando valores escalares individuais na rede (na verdade, geralmente faço isso como um exercício de papel apenas para a prática):

Dado como gradiente da função de erro em relação à saída de um neurônio. $\nabla a_j^{(k+1)} = \frac{\partial E}{\partial a_j^{(k+1)}}$

1. $\nabla z_j^{(k+1)} = \frac{\partial E}{\partial z_j^{(k+1)}} = \frac{\partial E}{\partial a_j^{(k+1)}} \frac{\partial a_j^{(k+1)}}{\partial z_j^{(k+1)}} = \nabla a_j^{(k+1)} f'(z_j^{(k+1)})$

2. $\nabla a_i^{(k)} = \frac{\partial E}{\partial a_i^{(k)}} = \sum_j \frac{\partial E}{\partial z_j^{(k+1)}} \frac{\partial z_j^{(k+1)}}{\partial a_i^{(k)}} = \sum_j \nabla z_j^{(k+1)} W_{ij}^{(k)}$

3. $\nabla W_{ij}^{(k)} = \frac{\partial E}{\partial W_{ij}^{(k)}} = \frac{\partial E}{\partial z_j^{(k+1)}} \frac{\partial z_j^{(k+1)}}{\partial W_{ij}^{(k)}} = \nabla z_j^{(k+1)} a_{i}^{(k)}$

Por enquanto, tudo bem. No entanto, geralmente é melhor recuperar essas equações usando matrizes e vetores para representar os elementos. Eu posso fazer isso, mas não sou capaz de descobrir a representação "nativa" da lógica equivalente no meio das derivações. Eu posso descobrir quais devem ser as formas finais consultando a versão escalar e verificando se as multiplicações têm dimensões corretas, mas não tenho idéia de por que devo colocar as equações nessas formas.

Existe realmente uma maneira de expressar a derivação baseada em tensor da propagação reversa, usando apenas operações vetoriais e matriciais, ou é uma questão de "ajustá-la" à derivação acima?

Usando vetores de coluna , , e matriz de pesos mais o vetor de viés , as operações de feed-forward são: $\mathbf{a}^{(k)}$ $\mathbf{z}^{(k+1)}$ $\mathbf{a}^{(k+1)}$ $\mathbf{W}^{(k)}$ $\mathbf{b}^{(k)}$

$\mathbf{z}^{(k+1)} = \mathbf{W}^{(k)}\mathbf{a}^{(k)} + \mathbf{b}^{(k)}$

$\mathbf{a}^{(k+1)} = f(\mathbf{z}^{(k+1)})$

Então minha tentativa de derivação é assim:

1. $\nabla \mathbf{z}^{(k+1)} = \frac{\partial E}{\partial \mathbf{z}^{(k+1)}} = ??? = \nabla \mathbf{a}^{(k+1)} \odot f'(\mathbf{z}^{(k+1)})$

2. $\nabla \mathbf{a}^{(k)} = \frac{\partial E}{\partial \mathbf{a}^{(k)}} = ??? = {\mathbf{W}^{(k)}}^{T} \nabla \mathbf{z}^{(k+1)}$

3. $\nabla \mathbf{W}^{(k)} = \frac{\partial E}{\partial \mathbf{W}^{(k)}} = ??? = \nabla\mathbf{z}^{(k+1)} {\mathbf{a}^{(k)}}^T$

Onde representa multiplicação por elementos. Eu não me incomodei em mostrar a equação para o viés. $\odot$

Onde eu coloquei ??? Não tenho certeza do caminho correto a partir das operações de feed-forward e conhecimento de equações diferenciais lineares para estabelecer a forma correta das equações? Eu poderia escrever alguns termos derivativos parciais, mas não tenho idéia de por que alguns devem usar multiplicação por elementos, outros por multiplicação de matrizes e por que a ordem de multiplicação deve ser mostrada, a não ser que claramente dê o resultado correto no final .

Não tenho certeza se existe uma derivação puramente tensorial ou se é apenas uma "vetorização" do primeiro conjunto de equações. Mas minha álgebra não é tão boa e estou interessado em descobrir de uma maneira ou de outra. Eu acho que isso pode me ajudar a compreender bem o TensorFlow, por exemplo, se eu tivesse uma melhor compreensão nativa dessas operações, pensando mais com a álgebra de tensores.

Desculpe pela notação ad-hoc / incorreta. Agora entendo que está escrito de maneira mais apropriada graças à resposta de Ehsan. O que eu realmente queria que houvesse uma variável de referência curta para substituir nas equações, em oposição às derivadas parciais verbais. $\nabla a_j^{(k+1)}$ $\nabla_{a_j^{(k+1)}}E$

backpropagation theory linear-algebra

— Neil Slater
fonte

Para ser sincero, usar componentes é muito mais fácil do que usar a forma matriz / vetor das equações. Mas se você quiser derivar a forma de matriz, você pode querer olhar para en.wikipedia.org/wiki/Matrix_calculus

— J. O'Brien Antognini

@ J.O'BrienAntognini: Acho que é isso que quero ver, sim. Se isso acaba explorando a teoria, e não é muito útil para entender o trabalho de rotina com o TensorFlow, etc., acho que ainda o achará interessante.

— Neil Slater

A notação é importante! O problema começa em:

Dado $\nabla a_j^{(k+1)} = \frac{\partial E}{\partial a_j^{(k+1)}}$

Eu não gosto da sua anotação! na verdade, está errado na notação matemática padrão. A notação correta é

\nabla_{a_{j}^{(k + 1)}} E = \frac{\partial E}{\partial a_{j}^{(k + 1)}}

$\nabla_{a_j^{(k+1)}} E = \frac{\partial E}{\partial a_j^{(k+1)}}$

Então, o gradiente do erro escreve um vetor é definido como $E$ ${\mathbf{a}^{(k)}}$

\nabla_{a^{(k)}} E = {(\frac{\partial E}{\partial a_{1}^{(k)}}, \dots, \frac{\partial E}{\partial a_{n}^{(k)}})}^{T} (⋆)

$\nabla_{\mathbf{a}^{(k)}} E = \left( \frac{\partial E}{\partial a_1^{(k)}} , \cdots, \frac{\partial E}{\partial a_n^{(k)}}\right)^T \;\;\;\; (\star)$

( observação : transpomos devido à convenção de que representamos vetores como vetores de coluna; se você deseja representar como vetores de linha, as equações que você deseja provar mudarão uma transposição!)

portanto, com regra de cadeia,

\frac{\partial E}{\partial a_{i}^{(k)}} = \sum_{j} \frac{\partial E}{\partial z_{j}^{(k + 1)}} \frac{\partial z_{j}^{(k + 1)}}{\partial a_{i}^{(k)}} = \sum_{j} \frac{\partial E}{\partial z_{j}^{(k + 1)}} W_{i j}^{(k)}

$\frac{\partial E}{\partial a_i^{(k)}}= \sum_j \frac{\partial E}{\partial z_j^{(k+1)}} \frac{\partial z_j^{(k+1)}}{\partial a_i^{(k)}}=\sum_j \frac{\partial E}{\partial z_j^{(k+1)}}W_{ij}^{(k)}$

por causa deAgora, você pode expressar o acima como produto vetorial (interno) $z_j^{(k+1)} = \sum_i W_{ij}^{(k)}a_i^{(k)}.$

\frac{\partial E}{\partial a_{i}^{(k)}} = (W_{:, i}^{(k)})^{T} \nabla_{z^{(k + 1)}} E

$\frac{\partial E}{\partial a_i^{(k)}} = (W_{:,i}^{(k)})^T \nabla_{\mathbf{z}^{(k+1)}} E$ e empilhando-os em podemos expressar como produto de vetor de matriz

(⋆),

$(\star),$

\nabla_{a^{(k)}} E

$\nabla_{\mathbf{a}^{(k)}} E$

\nabla_{a^{(k)}} E = (W^{(k)})^{T} \nabla_{z^{(k + 1)}} E .

$\nabla_{\mathbf{a}^{(k)}} E = (\mathbf{W}^{(k)})^T\nabla_{\mathbf{z}^{(k+1)}} E.$

Vou deixar o resto para você :)

Mais cálculo vetorial!

Vamos usar a convenção de vetores como vetores de coluna. Então e $\mathbf{z}^{(k+1)} = (\mathbf{W}^{(k)})^T \mathbf{a}^{(k)} + \mathbf{b}^{(k)}$

\nabla_{a^{(k)}} E = \frac{\partial E}{\partial a^{(k)}} = \frac{\partial z^{(k + 1)}}{\partial a^{(k)}} \frac{\partial E}{\partial z^{(k + 1)}} = W^{(k)} \frac{\partial E}{\partial z^{(k + 1)}}

$\nabla_{\mathbf{a}^{(k)}} E = \frac{\partial E}{\partial \mathbf{a}^{(k)}} = \frac{\partial \mathbf{z^{(k+1)}}}{\partial \mathbf{a}^{(k)}} \frac{\partial E}{\partial \mathbf{z}^{(k+1)}}= \mathbf{W}^{(k)} \frac{\partial E}{\partial \mathbf{z}^{(k+1)}}$

Porque

\frac{\partial z^{(k + 1)}}{\partial a^{(k)}} = \frac{\partial ((W^{(k)})^{T} a^{(k)} + b^{(k)})}{\partial a^{(k)}} = \frac{\partial ((W^{(k)})^{T} a^{(k)})}{\partial a^{(k)}} + \frac{\partial b^{(k)}}{\partial a^{(k)}}

$\frac{\partial \mathbf{z^{(k+1)}}}{\partial \mathbf{a}^{(k)}} = \dfrac{\partial\left((\mathbf{W}^{(k)})^T \mathbf{a}^{(k)} + \mathbf{b}^{(k)}\right)}{\partial \mathbf{a}^{(k)}}=\dfrac{\partial\left((\mathbf{W}^{(k)})^T \mathbf{a}^{(k)}\right)}{\partial \mathbf{a}^{(k)}} + \dfrac{\partial\mathbf{b}^{(k)}}{\partial \mathbf{a}^{(k)}}$

e pois não depende de $\dfrac{\partial\mathbf{b}^{(k)}}{\partial \mathbf{a}^{(k)}}=0$ $\mathbf{b}^{(k)}$ $\mathbf{a}^{(k)}.$

portanto

\frac{\partial ((W^{(k)})^{T} a^{(k)})}{\partial a^{(k)}} = \frac{\partial a^{(k)}}{\partial a^{(k)}} W^{(k)} = W^{(k)} .

$\dfrac{\partial\left((\mathbf{W}^{(k)})^T \mathbf{a}^{(k)}\right)}{\partial \mathbf{a}^{(k)}} = \dfrac{\partial \mathbf{a}^{(k)}}{\partial \mathbf{a}^{(k)}} \mathbf{W}^{(k)} = \mathbf{W}^{(k)}.$

por vetor por vetor (oito e sétima linha, identidades da última coluna, respectivamente)

— Ehsan M. Kermani
fonte

@NeilSlater Adicionei mais. Espero que ajude agora.

— Ehsan M. Kermani 13/04

Obrigado. O link para en.wikipedia.org/wiki/… é um fator chave para mim.

— Neil Slater

Derivando equações de retropropagação "nativamente" na forma de tensor

1.∇z(k+1)=∂E∂z(k+1)=???=∇a(k+1)⊙f′(z(k+1))∇z(k+1)=∂E∂z(k+1)=???=∇a(k+1)⊙f′(z(k+1))\nabla \mathbf{z}^{(k+1)} = \frac{\partial E}{\partial \mathbf{z}^{(k+1)}} = ??? = \nabla \mathbf{a}^{(k+1)} \odot f'(\mathbf{z}^{(k+1)})

2.∇a(k)=∂E∂a(k)=???=W(k)T∇z(k+1)∇a(k)=∂E∂a(k)=???=W(k)T∇z(k+1)\nabla \mathbf{a}^{(k)} = \frac{\partial E}{\partial \mathbf{a}^{(k)}} = ??? = {\mathbf{W}^{(k)}}^{T} \nabla \mathbf{z}^{(k+1)}

3.∇W(k)=∂E∂W(k)=???=∇z(k+1)a(k)T∇W(k)=∂E∂W(k)=???=∇z(k+1)a(k)T\nabla \mathbf{W}^{(k)} = \frac{\partial E}{\partial \mathbf{W}^{(k)}} = ??? = \nabla\mathbf{z}^{(k+1)} {\mathbf{a}^{(k)}}^T

Mais cálculo vetorial!

1. $\nabla \mathbf{z}^{(k+1)} = \frac{\partial E}{\partial \mathbf{z}^{(k+1)}} = ??? = \nabla \mathbf{a}^{(k+1)} \odot f'(\mathbf{z}^{(k+1)})$

2. $\nabla \mathbf{a}^{(k)} = \frac{\partial E}{\partial \mathbf{a}^{(k)}} = ??? = {\mathbf{W}^{(k)}}^{T} \nabla \mathbf{z}^{(k+1)}$

3. $\nabla \mathbf{W}^{(k)} = \frac{\partial E}{\partial \mathbf{W}^{(k)}} = ??? = \nabla\mathbf{z}^{(k+1)} {\mathbf{a}^{(k)}}^T$