Não se assuste. A regressão logística (LR) pode muito bem ser um esquema de classificação. O LR minimiza a seguinte perda:
onde e são o vetor de recurso e o vetor de destino, por exemplo, do seu conjunto de treinamento. Essa função se origina da probabilidade conjunta de todos os exemplos de treinamento, o que explica sua natureza probabalística, embora a utilizemos para classificação. Na equação está o seu vetor de peso seu viés. Espero que você saiba o que
minw,b∑i=1nlog(1+exp(−yifw,b(xi)))+λ∥w∥2
xiyiiwbfw,b(xi)é. O último termo no problema de minimização é o termo de regularização, que, entre outras coisas, controla a generalização do modelo.
Supondo que todas as suas sejam normalizadas, por exemplo, dividindo-se pela magnitude de , é fácil ver quais variáveis são mais importantes: aquelas que são maiores em relação às outras ou (no lado negativo) ) menores que os outros. Eles influenciam mais a perda.xx
Se você está interessado em encontrar as variáveis que realmente são importantes e, no processo, não se importa de chutar algumas, pode regularizar sua função de perda:
min w , b n ∑ i = 1 log ( 1 + exp ( - y i f w , b ( x i ) ) ) + λ | w |ℓ1
minw,b∑i=1nlog(1+exp(−yifw,b(xi)))+λ|w|
Os derivados ou o regularizador são bem diretos, portanto não os mencionarei aqui. O uso dessa forma de regularização e de um apropriado fará com que os elementos menos importantes em se tornem zero e os outros não.wλw
Eu espero que isso ajude. Pergunte se você tiver mais perguntas.