Função de custo de entropia cruzada na rede neural

10

Estou analisando a função de custo de entropia cruzada encontrada neste tutorial :

C = - \frac{1}{n} \sum_{x} [y \ln a + (1 - y) \ln (1 - a)]

$C = -\frac{1}{n} \sum_x [y \ln a+(1−y)\ln(1−a)]$

O que exatamente estamos resumindo? É claro que está acima de , mas e não mudam com . Todos os 's são inseridos no um . é definido no parágrafo acima da equação como uma função da soma de todos os 's e ' s. $x$ $y$ $a$ $x$ $x$ $a$ $a$ $w$ $x$

Além disso, é definido como o número de entradas nesse neurônio em particular, correto? Está redigido como "o número total de itens de dados de treinamento" . $n$

Editar:

Estou correto ao pensar que

C = - \frac{1}{n} \sum_{x} [y \ln a + (1 - y) \ln (1 - a)]

$C= -\frac{1}{n} \sum_x [y \ln a+(1−y)\ln(1−a)]$

seria a função de custo para toda a rede, enquanto

C = [y \ln a + (1 - y) \ln (1 - a)]

$C = [y \ln a+(1−y)\ln(1−a)]$

seria o custo para o neurônio individual? A soma não deveria estar sobre cada neurônio de saída?

neural-networks error-propagation

— Adam12344
fonte

14

Aqui está como eu expressaria a perda de entropia cruzada :

L (X, Y) = - \frac{1}{n} \sum_{i = 1}^{n} y^{(i)} \ln a (x^{(i)}) + (1 - y^{(i)}) \ln (1 - a (x^{(i)}))

$\mathcal{L}(X, Y) = -\frac{1}{n} \sum_{i=1}^n y^{(i)} \ln a(x^{(i)}) + \left(1 - y^{(i)}\right) \ln \left(1 - a(x^{(i)})\right)$

Aqui, é o conjunto de exemplos de entrada no conjunto de dados de treinamento e é o conjunto de rótulos correspondente para esses exemplos de entrada. O representa a saída da rede neural dada a entrada . $X = \left\{x^{(1)},\dots,x^{(n)}\right\}$ $Y=\left\{y^{(1)},\dots,y^{(n)} \right\}$ $a(x)$ $x$

Cada um dos é 0 ou 1, e a ativação de saída é tipicamente restrita ao intervalo aberto (0, 1) usando um sigmóide logístico . Por exemplo, para uma rede de uma camada (equivalente à regressão logística), a ativação seria dada por que é um matriz de pesos é um vetor de viés. Para várias camadas, você pode expandir a função de ativação para algo como que e são a matriz de pesos e a polarização da primeira camada, e $y^{(i)}$ $a(x)$

a (x) = \frac{1}{1 + e^{- W x - b}}

$a(x) = \frac{1}{1 + e^{-Wx-b}}$

W

$W$

b

$b$

a (x) = \frac{1}{1 + e^{- W z (x) - b}} z (x) = \frac{1}{1 + e^{- V x - c}}

$a(x) = \frac{1}{1 + e^{-Wz(x)-b}} \\ z(x) = \frac{1}{1 + e^{-Vx-c}}$

V

$V$

c

$c$

z (x)

$z(x)$ é a ativação da camada oculta na rede.

Usei o (i) sobrescrito para denotar exemplos porque achei bastante eficaz no curso de aprendizado de máquina de Andrew Ng; às vezes as pessoas expressam exemplos como colunas ou linhas em uma matriz, mas a idéia permanece a mesma.

— lmjohns3
fonte

Obrigado! Portanto, isso nos daria um número único para o erro de toda a rede, em todas as nossas amostras. Para propagação traseira, preciso encontrar a derivada parcial dessa função na matriz de pesos na camada final. Como eu faria isso?

— precisa saber é o seguinte

Fazer backprop é uma lata de vermes totalmente separada! A página à qual você vinculou tem uma descrição de derivadas de computação etc. e há muitas perguntas sobre backprop no stackoverflow e neste site. Tente olhar um pouco ao redor e, em seguida, postar uma pergunta separada especificamente sobre backprop.

— precisa saber é o seguinte

Isso pode ser útil para você entender o backprop, que passa pelo suporte traseiro com uma rede neural de quatro camadas com uma perda de entropia cruzada em detalhes sangrentos :) cookedsashimi.wordpress.com/2017/05/06/…

— YellowPillow

5

O que exatamente estamos resumindo?

O tutorial é realmente bastante explícito:

$n$

$x$ $\Sigma$ $a$

a = \sum_{j} w_{j} x_{j} .

$a = \sum_{j} w_jx_j.$

Posteriormente, no mesmo tutorial, Nielsen fornece uma expressão para a função de custo para uma rede de multicamadas e multi-neurônios (Eqn. 63):

C = - \frac{1}{n} \sum_{x} \sum_{j} [y_{j} \ln a_{j}^{L} + (1 - y_{j}) \ln (1 - a_{j}^{L})] .

$C = -\frac{1}{n}\sum_{x}\sum_{j}[ y_j \ln a^{L}_{j} + (1 - y_j) \ln (1 - a^{L}_{j})].$

$x$ $j$

— ali_m
fonte

Obrigado pela compreensão, uma pergunta: a última que você definiu não é a entropia categórica, certo?

— Tommaso Guerrini

Ele também disse em seu tutorial que "às vezes você pode assumir valores intermediários entre 0 e 1", mas a função que ele deu está toda em y e não houve entrada de ativação. Como podemos implementar valores intermediários na função st?

— Feras 15/02

No tutorial de Nielsen, que mostra um perceptron de camada única, a = \ sigma (\ sum_ {j} w_j x_j) porque você possui uma função de ativação sigmóide para sua camada de saída, não a = \ sum_ {j} w_j x_j

— ARAT