Qual é a diferença entre regressão linear e regressão logística?

122

Quando você usaria cada um?

regression logistic linear-model

— B Seven
fonte

No modelo de regressão linear, a variável dependente é considerada contínua, enquanto na regressão logística é categórica, ou seja, discreta. Na aplicação, o primeiro é usado em configurações de regressão, enquanto o último é usado para classificação binária ou multi-classe (onde é chamado de regressão logística multinomial).

y

$y$

— Pardis

Embora escrito em um contexto diferente, pode ajudar você a ler minha resposta aqui: Diferença entre os modelos logit e probit , que contém muitas informações sobre o que está acontecendo na regressão logística que pode ajudá-lo a entendê-las melhor.

— gung

Todas as respostas anteriores estão corretas, mas há razões pelas quais você pode favorecer um modelo de regressão linear, mesmo quando o resultado é uma dicotomia. Eu escrevi sobre estas razões aqui: statisticalhorizons.com/linear-vs-logistic

— Paul von Hippel

Respostas:

111

A regressão linear usa a equação linear geral que é uma variável dependente contínua e variáveis independentes são geralmente contínuas (mas também podem ser binárias, por exemplo, quando o modelo linear é usado em t- teste) ou outros domínios discretos. é um termo para a variação que não é explicada pelo modelo e geralmente é chamada apenas de "erro". Os valores dependentes individuais indicados por podem ser resolvidos modificando um pouco a equação: $Y=b_0+∑(b_i X_i)+\epsilon$ $Y$ $X_i$ $\epsilon$ $Y_j$ $Y_j=b_0 + \sum{(b_i X_{ij})+\epsilon_j}$

A regressão logística é outro procedimento do modelo linear generalizado (GLM) usando a mesma fórmula básica, mas, em vez do contínuo , está regredindo para a probabilidade de um resultado categórico. Na forma mais simples, isso significa que estamos considerando apenas uma variável de resultado e dois estados dessa variável - 0 ou 1. $Y$

A equação para a probabilidade de é semelhante a esta: $Y=1$

P (Y = 1) = \frac{1}{1 + e^{- (b_{0} + \sum (b_{i} X_{i}))}}

$P(Y=1) = {1 \over 1+e^{-(b_0+\sum{(b_iX_i)})}}$

Suas variáveis independentes podem ser contínuas ou binárias. Os coeficientes de regressão podem ser exponenciados para fornecer a alteração nas chances de por alteração em , ou seja, e . é chamado de odds ratio, . Em inglês, você pode dizer que as probabilidades de aumentam por um fator de por unidade de mudança em . $X_i$ $b_i$ $Y$ $X_i$ $Odds={P(Y=1) \over P(Y=0)}={P(Y=1) \over 1-P(Y=1)}$ ${\Delta Odds}= e^{b_i}$ $\Delta Odds$ $Odds(X_i+1)\over Odds(X_i)$ $Y=1$ $e^{b_i}$ $X_i$

Exemplo: se você quiser ver como o índice de massa corporal prevê o colesterol no sangue (uma medida contínua), use a regressão linear conforme descrito na parte superior da minha resposta. Se você quiser ver como o IMC prevê as chances de ser diabético (um diagnóstico binário), use a regressão logística.

— DocBuckets
fonte

Parece uma boa resposta, mas você poderia explicar o que o representa e - em particular - por que incluí-lo nas somatórias? (O que está sendo resumido, afinal?)

ϵ_{i}

$\epsilon_i$

— whuber

Parece-me Bill que ele pretendia escrever isto (abreviatura Latina para que é) ao invés de ei

— Michael Chernick

Mas o εi na soma do expoente não deveria estar lá. Parece que o termo ruído no modelo foi carregado acidentalmente para lá. A única soma deve ser sobre os bis que representam os coeficientes p para as covariáveis.

— Michael Chernick 28/05

Há um erro na sua expressão para . Você deve ter não A aleatoriedade em um modelo de regressão logística deriva do fato de serem ensaios bernoulli, e não de erros nas probabilidades de sucesso (e é assim que você está escrito).

P (Y = 1)

$P(Y=1)$

P (Y = 1) = \frac{1}{1 + \exp {- X β}},

$P(Y=1) = \frac{1}{1 + \exp \{-X \boldsymbol{\beta} \} },$

P (Y = 1) = \frac{1}{1 + \exp {- (X β + ε)}}

$P(Y=1) = \frac{1}{1 + \exp \{ -(X \boldsymbol{\beta}+\varepsilon) \} }$

— Macro

A regressão logística @samthebrand não é binária em si. Ele pode ser usado para modelar dados com uma resposta binária via probabilidades que variam entre 0 e 1. vai ligar descaradamente meu blog post sobre este que deve limpar a sua confusão.

— Ben

A regressão linear é usada para estabelecer um relacionamento entre variáveis dependentes e independentes, o que é útil na estimativa da variável dependente resultante no caso de mudança de variável independente. Por exemplo:

Usando uma regressão linear, a relação entre Rain (R) e Umbrella Sales (U) é encontrada - U = 2R + 5000

Esta equação diz que para cada 1mm de chuva, há uma demanda por 5002 guarda-chuvas. Portanto, usando a Regressão Simples, você pode estimar o valor da sua variável.

A regressão logística, por outro lado, é usada para determinar a probabilidade de um evento. E este evento é capturado em formato binário, ou seja, 0 ou 1.

Exemplo - quero verificar se um cliente comprará meu produto ou não. Para isso, eu executaria uma regressão logística nos dados (relevantes) e minha variável dependente seria uma variável binária (1 = Sim; 0 = Não).

Em termos de representação gráfica, a regressão linear fornece uma linha linear como saída, uma vez que os valores são plotados no gráfico. Considerando que, a regressão logística fornece uma linha em forma de S

Referência de Mohit Khurana.

— Vijay Ram
fonte

Re: "A regressão linear é usada para estabelecer uma relação entre variáveis dependentes e independentes" - isso também é verdade sobre a regressão logística - é apenas que a variável dependente é binária.

— Macro

A regressão logística não é apenas para prever um evento binário ( classes). Ele pode ser generalizada para classes (regressão logística multinominal)

2

$2$

k

$k$

— tgy

As diferenças foram resolvidas pela DocBuckets e Pardis, mas quero acrescentar uma maneira de comparar o desempenho não mencionado.

A regressão linear é geralmente resolvida minimizando o erro dos mínimos quadrados do modelo para os dados; portanto, grandes erros são penalizados quadraticamente. A regressão logística é exatamente o oposto. O uso da função de perda logística faz com que grandes erros sejam penalizados com uma constante assintoticamente.

Considere regressão linear em resultados categóricos {0,1} para ver por que isso é um problema. Se o seu modelo prevê que o resultado é 38 quando a verdade é 1, você não perdeu nada. A regressão linear tentaria reduzir esses 38, a logística não (o mesmo).

— J. Abrahamson
fonte

Eram então as situações / casos que são penalizados em uma logística, ou seja, em que casos teríamos um ajuste inadequado ?

— MSIS

Exatamente o oposto: sempre que desvios maiores do ajuste realmente produzem resultados piores. Por exemplo, a regressão logística é boa para mantê-lo batendo em um dardo, mas não pode fazer com que um alvo seja bonito. Ou, da mesma forma, pensa que quase faltar ao quadro é o mesmo que deixar o seu próximo.

— J. Abrahamson

Ótima resposta. Foi realizada alguma pesquisa quanto prejudica o desempenho do modelo? Quero dizer, se uma regressão linear foi usada para prever a resposta = {0,1} em vez de uma regressão logística.

— Tagar