Por que a regressão logística não é chamada de Classificação Logística?


75

Como a Regressão Logística é um modelo de classificação estatística que lida com variáveis ​​dependentes categóricas, por que não é chamado de Classificação Logística ? O nome "Regressão" não deve ser reservado aos modelos que lidam com variáveis ​​dependentes contínuas?


5
A regressão logística pertence à família de modelos GLM.
Stéphane Laurent

10
Você pode usá-lo para regredir probabilidades.
Emre

25
Embora a regressão logística possa certamente ser usada para classificação introduzindo um limite nas probabilidades que ela retorna, esse dificilmente é seu único uso - ou mesmo seu uso principal. Foi desenvolvido para - e continua a ser usado para - propósitos de regressão que nada têm a ver com classificação. Eu diria que isso ainda é fácil para o que é usado, mas acho que depende do que você olha.
Glen_b

6
Você pode achar interessante este artigo sobre o desenvolvimento da regressão logística, principalmente porque fornece algum sentido dos tipos de problemas para os quais é usado como técnica de regressão.
Glen_b

Respostas:


102

A regressão logística não é enfaticamente um algoritmo de classificação por si só. É apenas um algoritmo de classificação em combinação com uma regra de decisão que torna dicotômicas as probabilidades previstas do resultado. A regressão logística é um modelo de regressão porque estima a probabilidade de pertencer a uma classe como uma (transformação de a) função multilinear dos recursos.

Frank Harrell publicou várias respostas neste site, enumerando as armadilhas de considerar a regressão logística como um algoritmo de classificação. Entre eles:

Se bem me lembro, ele uma vez me indicou seu livro sobre estratégias de regressão para mais elaboração sobre esses (e mais!) Pontos, mas não consigo encontrar esse post em particular.


1
Se for esse o caso, todos (ou a maioria) dos classificadores prevêem as probabilidades de pertencer a uma classe primeiro (até onde eu saiba) e depois os transformaremos em classes. Não é?
Outlier

9
@ Counterexample externo: SVM não calcula as probabilidades de classe, apenas mede a distância entre uma observação e um hiperplano.
Reintegrar Monica

@ Outlier no ML são chamados de classificadores probabilísticos; árvores e florestas aleatórias não são, xgboost é - pelo menos com logloss)
seanv507

12

E[Y|X=x]

  • Assumindo que (Y | X = x) seja distribuído normalmente, produz-se uma regressão linear clássica.
  • Supondo que uma distribuição de Poisson produz regressão de Poisson.
  • Supondo que uma distribuição de Bernoulli produz regressão logística.

(Y|X=x)


-3

Além das boas respostas já fornecidas, outra visão é que a regressão logística prediz probabilidades (que são valores contínuos ) que variam de 0 a 1.

insira a descrição da imagem aqui

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.