Qual é a diferença entre regressão linear e regressão logística?

242

Quando temos que prever o valor de um resultado categórico (ou discreto), usamos regressão logística . Acredito que usamos regressão linear para prever também o valor de um resultado, dados os valores de entrada.

Então, qual é a diferença entre as duas metodologias?

machine-learning data-mining linear-regression

— London guy
fonte

270

Saída de regressão linear como probabilidades

É tentador usar a saída de regressão linear como probabilidades, mas é um erro, porque a saída pode ser negativa e maior que 1, enquanto a probabilidade não pode. Como a regressão pode realmente produzir probabilidades que podem ser menores que 0, ou até maiores que 1, a regressão logística foi introduzida.

Fonte: http://gerardnico.com/wiki/data_mining/simple_logistic_regression
Resultado

Na regressão linear, o resultado (variável dependente) é contínuo. Pode ter qualquer um de um número infinito de valores possíveis.

Na regressão logística, o resultado (variável dependente) possui apenas um número limitado de valores possíveis.
A variável dependente

A regressão logística é usada quando a variável de resposta é de natureza categórica. Por exemplo, sim / não, verdadeiro / falso, vermelho / verde / azul, 1º / 2º / 3º / 4º, etc.

A regressão linear é usada quando sua variável de resposta é contínua. Por exemplo, peso, altura, número de horas, etc.
Equação

A regressão linear fornece uma equação que tem a forma Y = mX + C, significa equação com grau 1.

No entanto, a regressão logística fornece uma equação que tem a forma Y = e ^X + e ^-X
Interpretação coeficiente

Na regressão linear, a interpretação do coeficiente de variáveis independentes é bastante direta (ou seja, mantendo todas as outras variáveis constantes, com um aumento unitário nessa variável, espera-se que a variável dependente aumente / diminua em xxx).

No entanto, na regressão logística, depende da família (binomial, Poisson, etc.) e do link (log, logit, log inverso etc.) que você usa, a interpretação é diferente.
Técnica de minimização de erros

A regressão linear usa o método dos mínimos quadrados ordinários para minimizar os erros e obter o melhor ajuste possível, enquanto a regressão logística usa o método da máxima probabilidade para chegar à solução.

A regressão linear é geralmente resolvida minimizando o erro dos mínimos quadrados do modelo para os dados; portanto, grandes erros são penalizados quadraticamente.

A regressão logística é exatamente o oposto. O uso da função de perda logística faz com que grandes erros sejam penalizados com uma constante assintoticamente.

Considere regressão linear em resultados categóricos {0, 1} para ver por que isso é um problema. Se o seu modelo prevê que o resultado é 38, quando a verdade é 1, você não perdeu nada. A regressão linear tentaria reduzir esses 38, a logística não (tanto) ² .

— Sayali Sonawane
fonte

Existe uma diferença entre Y = e ^ X / 1 + e ^ -X e Y = e ^ X + e ^ -X?

— MMS

3

e ^ X / 1? qualquer coisa dividida por 1 é a mesma. então não há diferença. Tenho certeza de que você pretendia perguntar outra coisa.

— Spacewanderer

Sei que esse é um tópico antigo, mas, dada a sua afirmação "A regressão logística é usada quando a variável de resposta é de natureza categórica. Por exemplo, sim / não, verdadeiro / falso, vermelho / verde / azul, 1º / 2º / 3º / 4º, etc. "; qual é a diferença entre isso e classificação então?

— precisa saber

@kingJulian A regressão logística é realmente usada para classificação. Verifique isso , você pode achar que é útil como eu tenho

— QuantumHoneybees

@kingJulian: A regressão logística é uma técnica de classificação e classificação representa vários algoritmos que tentam prever poucos resultados.

— user3676305 5/02

204

Na regressão linear, o resultado (variável dependente) é contínuo. Pode ter qualquer um de um número infinito de valores possíveis. Na regressão logística, o resultado (variável dependente) possui apenas um número limitado de valores possíveis.

Por exemplo, se X contiver a área em pés quadrados de casas e Y contiver o preço de venda correspondente dessas casas, você poderá usar a regressão linear para prever o preço de venda em função do tamanho da casa. Enquanto o preço de venda possível não pode realmente ser qualquer , há tantos valores possíveis que um modelo de regressão linear seriam escolhidos.

Se, em vez disso, você desejasse prever, com base no tamanho, se uma casa seria vendida por mais de US $ 200 mil, você usaria a regressão logística. As saídas possíveis são Sim, a casa será vendida por mais de US $ 200 mil ou Não, a casa não será.

— Eric G
fonte

3

No exemplo de regressão logística de andrews de câncer, posso desenhar uma linha horizontal y = 0,5, (que obviamente passa por y = 0,5), dez se algum ponto estiver acima dessa linha y = 0,5 => + ve, else -ve . Então, por que preciso de uma regressão logística? Estou apenas tentando entender a melhor explicação para usar a regressão logística?

— Vinita # 28/15

@vinita: aqui ou aqui é um exemplo simples para não usar regressão linear e, em seguida, debulha, para problemas de classificação.

— Ankush Shah

3

a regressão logística é o melhor classificador em dados categóricos do que a regressão linear. Ele usa uma função de erro de entropia cruzada em vez de mínimos quadrados. Portanto, não é sensitivo a discrepantes e também não pune pontos de dados "muito corretos", como os mínimos quadrados.

— Marcel_marcel1991

15

Apenas para adicionar as respostas anteriores.

Regressão linear

Destina-se a resolver o problema de prever / estimar o valor de saída para um determinado elemento X (digamos f (x)). O resultado da previsão é uma função contínua em que os valores podem ser positivos ou negativos. Nesse caso, você normalmente tem um conjunto de dados de entrada com muitos exemplos e o valor de saída para cada um deles. O objetivo é poder ajustar um modelo a esse conjunto de dados para poder prever essa saída para novos elementos diferentes / nunca vistos. A seguir, é apresentado o exemplo clássico de ajuste de uma linha a um conjunto de pontos, mas, em geral, a regressão linear pode ser usada para ajustar modelos mais complexos (usando graus polinomiais mais altos):

Resolvendo o problema

A regressão linear pode ser resolvida de duas maneiras diferentes:

Equação normal (maneira direta de resolver o problema)
Descida de gradiente (abordagem iterativa)

Regressão logística

Destina-se a resolver problemas de classificação onde determinado elemento é necessário classificar o mesmo em N categorias. Exemplos típicos recebem, por exemplo, um e-mail para classificá-lo como spam ou não, ou um veículo encontra a qual categoria pertence (carro, caminhão, van, etc.). Isso é basicamente a saída é um conjunto finito de valores discretos.

Resolvendo o problema

Os problemas de regressão logística poderiam ser resolvidos apenas usando a descida do gradiente. A formulação em geral é muito semelhante à regressão linear, a única diferença é o uso de diferentes funções de hipótese. Na regressão linear, a hipótese tem a forma:

h(x) = theta_0 + theta_1*x_1 + theta_2*x_2 ..

onde theta é o modelo que estamos tentando ajustar e [1, x_1, x_2, ..] é o vetor de entrada. Na regressão logística, a função de hipótese é diferente:

g(x) = 1 / (1 + e^-x)

Esta função possui uma boa propriedade, basicamente mapeia qualquer valor para o intervalo [0,1] apropriado para lidar com propababilities durante a classificação. Por exemplo, no caso de uma classificação binária, g (X) pode ser interpretado como a probabilidade de pertencer à classe positiva. Nesse caso, normalmente você tem classes diferentes que são separadas por um limite de decisão, basicamente uma curva que decide a separação entre as diferentes classes. A seguir, é apresentado um exemplo de conjunto de dados separado em duas classes.

— rkachach
fonte

7

Ambos são bastante semelhantes na solução da solução, mas, como já foi dito, um (Regressão Logística) é para prever uma categoria "adequada" (S / N ou 1/0) e o outro (Regressão Linear) é para prever um valor.

Portanto, se você deseja prever se tem câncer S / N (ou uma probabilidade) - use a logística. Se você quiser saber quantos anos você viverá - use a Regressão Linear!

— Doug F
fonte

6

A diferença básica:

A regressão linear é basicamente um modelo de regressão, o que significa que ele fornecerá uma saída não discreta / contínua de uma função. Portanto, essa abordagem fornece o valor. Por exemplo: dado x o que é f (x)

Por exemplo, dado um conjunto de treinamento de diferentes fatores e o preço de uma propriedade após o treinamento, podemos fornecer os fatores necessários para determinar qual será o preço da propriedade.

A regressão logística é basicamente um algoritmo de classificação binária, o que significa que aqui haverá uma saída com valor discreto para a função. Por exemplo: para um determinado x se f (x)> limiar classifique-o como 1 ou classifique-o como 0.

Por exemplo, dado um conjunto de tamanho de tumor cerebral como dados de treinamento, podemos usar o tamanho como entrada para determinar se é um tumor benino ou maligno. Portanto, aqui a saída é discreta 0 ou 1.

* aqui a função é basicamente a função de hipótese

— sayantan ghosh
fonte

5

Simplificando, a regressão linear é um algoritmo de regressão que supera um possível valor contínuo e infinito; a regressão logística é considerada um algoritmo classificador binário, que gera a 'probabilidade' da entrada pertencente a um rótulo (0 ou 1).

— Jason CHAN
fonte

Graças a Deus, li sua nota sobre probabilidade. Estava prestes a cancelar a logística como um classificador binário.

— HashRocketSyntax 31/08/19

4

Regressão significa variável contínua, Linear significa que existe uma relação linear entre y e x. Ex = Você está tentando prever o salário a partir de anos de experiência. Portanto, aqui o salário é variável independente (y) e o ano de experiência é variável dependente (x). y = b0 + b1 * x1 Estamos tentando encontrar o valor ideal das constantes b0 e b1, o que nos fornecerá a melhor linha de ajuste para seus dados de observação. É uma equação de linha que fornece valor contínuo de x = 0 a valor muito grande. Essa linha é chamada de modelo de regressão linear.

A regressão logística é o tipo de técnica de classificação. Não se deixe enganar pela regressão de termos. Aqui, prevemos se y = 0 ou 1.

Aqui primeiro precisamos encontrar p (y = 1) (probabilidade de y = 1) dado x a partir do formulário abaixo.

A probabilidade p está relacionada a y por baixo do formulário

Ex = podemos fazer a classificação do tumor com mais de 50% de chance de ter câncer como 1 e do tumor com menos de 50% de chance de ter câncer como 0.

Aqui, o ponto vermelho será previsto como 0, enquanto o ponto verde será previsto como 1.

— Ashish Anand
fonte

1

Em resumo: a regressão linear fornece saída contínua. ou seja, qualquer valor entre uma faixa de valores. Regressão logística fornece saída discreta. ie Sim / Não, 0/1 tipo de saídas.

— Sudeep K Rana
fonte

1

Não posso concordar mais com os comentários acima. Acima disso, existem mais algumas diferenças, como

Na regressão linear, presume-se que os resíduos sejam normalmente distribuídos. Na regressão logística, os resíduos precisam ser independentes, mas não normalmente distribuídos.

A regressão linear pressupõe que uma mudança constante no valor da variável explicativa resulte em mudança constante na variável de resposta. Essa suposição não se aplica se o valor da variável de resposta representar uma probabilidade (em Regressão logística)

O GLM (modelos lineares generalizados) não assume uma relação linear entre variáveis dependentes e independentes. No entanto, ele assume uma relação linear entre a função de link e variáveis independentes no modelo de logit.

— Rakend Dubba
fonte

1

| Basis                                                           | Linear                                                                         | Logistic                                                                                                            |
|-----------------------------------------------------------------|--------------------------------------------------------------------------------|---------------------------------------------------------------------------------------------------------------------|
| Basic                                                           | The data is modelled using a straight line.                                    | The probability of some obtained event is represented as a linear function of a combination of predictor variables. |
| Linear relationship between dependent and independent variables | Is required                                                                    | Not required                                                                                                        |
| The independent variable                                        | Could be correlated with each other. (Specially in multiple linear regression) | Should not be correlated with each other (no multicollinearity exist).                                              |

— Sinfonia
fonte

0

Simplificando, se no modelo de regressão linear chegar mais casos de teste que estão muito longe do limite (digamos = 0,5) para uma previsão de y = 1 e y = 0. Então, nesse caso, a hipótese mudará e se tornará pior. Portanto, o modelo de regressão linear não é usado para o problema de classificação.

Outro problema é que, se a classificação é y = 0 ey = 1, h (x) pode ser> 1 ou <0. Portanto, usamos regressão logística onde 0 <= h (x) <= 1.

— Adarsh Bahadur
fonte

0

A regressão logística é usada na previsão de saídas categóricas como Sim / Não, Baixa / Média / Alta, etc. Você tem basicamente dois tipos de regressão logística Regressão logística binária (Sim / Não, Aprovado / Reprovado) ou Regressão logística multi-classe (Baixa / Média / Alto, dígitos de 0 a 9, etc.)

Por outro lado, a regressão linear é se sua variável dependente (y) for contínua. y = mx + c é uma equação de regressão linear simples (m = inclinação e c é a interceptação em y). A regressão multilinear possui mais de 1 variável independente (x1, x2, x3 ... etc)

— ketan solanki
fonte

0

Na regressão linear, o resultado é contínuo, enquanto na regressão logística, o resultado tem apenas um número limitado de valores possíveis (discreto).

exemplo: Em um cenário, o valor fornecido de x é o tamanho de uma plotagem em pés quadrados, prevendo y, ou seja, a taxa da plotagem está sob regressão linear.

Se, em vez disso, você desejasse prever, com base no tamanho, se o gráfico seria vendido por mais de 300000 Rs, você usaria a regressão logística. As saídas possíveis são Sim, o lote será vendido por mais de 300000 Rs ou Não.

— Pradeep Kumar
fonte

0

No caso de regressão linear, o resultado é contínuo, enquanto no caso de regressão logística, o resultado é discreto (não contínuo)

Para realizar a regressão linear, é necessária uma relação linear entre as variáveis dependentes e independentes. Mas, para realizar a regressão logística, não exigimos uma relação linear entre as variáveis dependentes e independentes.

A Regressão Linear trata de ajustar uma linha reta nos dados, enquanto a Regressão Logística trata de ajustar uma curva aos dados.

A regressão linear é um algoritmo de regressão para Machine Learning, enquanto a regressão logística é um algoritmo de classificação para aprendizado de máquina.

A regressão linear assume distribuição gaussiana (ou normal) da variável dependente. A regressão logística assume distribuição binomial da variável dependente.

— Sandeep R
fonte