Essencialmente, minha pergunta é que, nos Perceptrons multicamadas, os perceptrons são usados com uma função de ativação sigmóide. De modo que na regra de actualização y é calculado como
Como esse Perceptron "sigmóide" difere de uma regressão logística então?
Eu diria que um perceptron sigmóide de camada única é equivalente a uma regressão logística no sentido de que ambos usam na regra de atualização. Além disso, ambos retornam sinal( y =1 na previsão. No entanto, em perceptrons multicamadas, a função de ativação sigmóide é usada para retornar uma probabilidade, não um sinal ligado, em contraste com a regressão logística e um perceptron de camada única.
Eu acho que o uso do termo "Perceptron" pode ser um pouco ambíguo, então deixe-me fornecer alguns antecedentes com base no meu entendimento atual sobre perceptrons de camada única:
Regra de perceptron clássica
Primeiro, o perceptron clássico de F. Rosenblatt, onde temos uma função step:
para atualizar os pesos
Para que seja calculado como
Gradiente descendente
Usando a descida gradiente, otimizamos (minimizamos) a função de custo
onde temos números "reais", vejo isso basicamente análogo à regressão linear com a diferença de que nossa saída de classificação é limiar.
Aqui, damos um passo na direção negativa do gradiente quando atualizamos os pesos
Mas aqui temos vez de
Além disso, calculamos a soma dos erros quadráticos para uma passagem completa em todo o conjunto de dados de treinamento (no modo de aprendizado em lote), em contraste com a regra clássica do perceptron que atualiza os pesos à medida que novas amostras de treinamento chegam (descida analógica ao gradiente estocástico - online Aprendendo).
Função de ativação sigmóide
Agora, aqui está a minha pergunta:
Nos Perceptrons multicamadas, os perceptrons são usados com uma função de ativação sigmóide. Para que na regra de atualização seja calculada como
Como esse Perceptron "sigmóide" difere de uma regressão logística então?