Aqui está como eu expressaria a perda de entropia cruzada :
L (X, Y) = - 1n∑i = 1ny( I )ema ( x( I )) + ( 1 - y( I )) em( 1 - a ( x( I )) ))
Aqui, é o conjunto de exemplos de entrada no conjunto de dados de treinamento e é o conjunto de rótulos correspondente para esses exemplos de entrada. O representa a saída da rede neural dada a entrada . Y = { y ( 1 ) , … , y ( n ) } a ( x ) xX= { x( 1 ), … , X( N )}Y= { y( 1 ), … , Y( N )}a ( x )x
Cada um dos é 0 ou 1, e a ativação de saída é tipicamente restrita ao intervalo aberto (0, 1) usando um sigmóide logístico . Por exemplo, para uma rede de uma camada (equivalente à regressão logística), a ativação seria dada por que é um matriz de pesos é um vetor de viés. Para várias camadas, você pode expandir a função de ativação para algo como que e são a matriz de pesos e a polarização da primeira camada, e a ( x ) a ( x ) = 1y( I )a(x) Wba(x)=1
a(x)=11+e−Wx−b
Wb Vcz(x)a(x)=11+e−Wz(x)−bz(x)=11+e−Vx−c
Vcz(x) é a ativação da camada oculta na rede.
Usei o (i) sobrescrito para denotar exemplos porque achei bastante eficaz no curso de aprendizado de máquina de Andrew Ng; às vezes as pessoas expressam exemplos como colunas ou linhas em uma matriz, mas a idéia permanece a mesma.