Em resumo, a regressão logística tem conotações probabilísticas que vão além do uso do classificador no ML. Eu tenho algumas notas sobre regressão logística aqui .
A hipótese em regressão logística fornece uma medida de incerteza na ocorrência de um resultado binário com base em um modelo linear. A saída é delimitada assintoticamente entre e e depende de um modelo linear, de modo que quando a linha de regressão subjacente tem valor , a equação logística é , fornecendo um ponto de corte natural para fins de classificação. No entanto, é ao custo de lançar as informações de probabilidade no resultado real de , que geralmente é interessante (por exemplo, probabilidade de inadimplência do empréstimo, dada a renda, a pontuação de crédito, a idade etc.).0100.5=e01+e0h(ΘTx)=eΘTx1+eΘTx
O algoritmo de classificação de perceptron é um procedimento mais básico, baseado em produtos pontuais entre exemplos e pesos . Sempre que um exemplo é classificado incorretamente, o sinal do produto escalar está em desacordo com o valor da classificação ( e ) no conjunto de treinamento. Para corrigir isso, o vetor de exemplo será iterativamente adicionado ou subtraído do vetor de pesos ou coeficientes, atualizando progressivamente seus elementos:−11
Vectorialmente, os recursos ou atributos de um exemplo são , e a idéia é "passar" o exemplo se:dx
∑1dθixi>theshold ou ...
h(x)=sign(∑1dθixi−theshold) . A função de sinal resulta em ou , em oposição a e na regressão logística.1−101
O limite será absorvido no coeficiente de polarização , . A fórmula é agora:+θ0
h(x)=sign(∑0dθixi) ou vetorizado: .h(x)=sign(θTx)
Os pontos classificados incorretamente terão , o que significa que o produto escalar de e será positivo (vetores na mesma direção), quando for negativo, ou o produto escalar será negativo (vetores em direções opostas), enquantosign(θTx)≠ynΘxnyn é positivo.yn
Eu tenho trabalhado nas diferenças entre esses dois métodos em um conjunto de dados do mesmo curso , no qual os resultados dos testes em dois exames separados estão relacionados à aceitação final da faculdade:
O limite de decisão pode ser facilmente encontrado com a regressão logística, mas foi interessante ver que, embora os coeficientes obtidos com o perceptron sejam muito diferentes dos da regressão logística, a simples aplicação da função de aos resultados produziu uma classificação tão boa quanto algoritmo. De fato, a precisão máxima (o limite definido pela inseparabilidade linear de alguns exemplos) foi atingida pela segunda iteração. Aqui está a sequência de linhas de divisão de fronteira, com 10 iterações aproximando os pesos, começando de um vetor aleatório de coeficientes:sign(⋅)10
90%
O código usado está aqui .