Ao usar funções de ativação logística, é verdade que a função que relaciona as entradas de cada unidade à sua saída é a mesma da regressão logística. Mas, isso não é realmente o mesmo que cada unidade que executa a regressão logística. A diferença é que, na regressão logística, os pesos e o viés são escolhidos de forma que a saída corresponda melhor aos valores-alvo determinados (usando a perda de log / entropia cruzada). Por outro lado, unidades ocultas em uma rede neural enviam suas saídas para unidades a jusante. Não há saída de destino a ser correspondida para unidades ocultas individuais. Em vez disso, os pesos e preconceitos são escolhidos para minimizar algumas funções objetivas que dependem da saída final da rede.
Em vez de executar a regressão logística, pode fazer mais sentido pensar em cada unidade oculta como computando uma coordenada em algum espaço de recurso. Nesta perspectiva, o objetivo de uma camada oculta é transformar sua entrada - o vetor de entrada é mapeado para um vetor de ativações da camada oculta. Você pode pensar nisso como mapear a entrada em um espaço de recurso com uma dimensão correspondente a cada unidade oculta.
A camada de saída geralmente pode ser vista como um algoritmo de aprendizado padrão que opera nesse espaço de recursos. Por exemplo, em uma tarefa de classificação, o uso de uma unidade de saída logística com perda de entropia cruzada é equivalente a executar a regressão logística no espaço de recurso (ou regressão logística multinomial se estiver usando saídas softmax). Em uma tarefa de regressão, usar uma saída linear com erro ao quadrado é equivalente a executar a regressão linear de mínimos quadrados no espaço de recurso.
Treinar a rede significa aprender o mapeamento do espaço de recursos e a função de classificação / regressão (no espaço de recursos) que, juntos, oferecem o melhor desempenho. Assumindo unidades ocultas não lineares, aumentar a largura da camada oculta ou empilhar várias camadas ocultas permite mapeamentos de espaço de recursos mais complexos, permitindo assim o ajuste de funções mais complexas.