Qual é a diferença entre regressão linear e regressão logística?
Quando você usaria cada um?
Qual é a diferença entre regressão linear e regressão logística?
Quando você usaria cada um?
Respostas:
A regressão linear usa a equação linear geral que é uma variável dependente contínua e variáveis independentes são geralmente contínuas (mas também podem ser binárias, por exemplo, quando o modelo linear é usado em t- teste) ou outros domínios discretos. é um termo para a variação que não é explicada pelo modelo e geralmente é chamada apenas de "erro". Os valores dependentes individuais indicados por podem ser resolvidos modificando um pouco a equação:
A regressão logística é outro procedimento do modelo linear generalizado (GLM) usando a mesma fórmula básica, mas, em vez do contínuo , está regredindo para a probabilidade de um resultado categórico. Na forma mais simples, isso significa que estamos considerando apenas uma variável de resultado e dois estados dessa variável - 0 ou 1.
A equação para a probabilidade de é semelhante a esta:
Suas variáveis independentes podem ser contínuas ou binárias. Os coeficientes de regressão podem ser exponenciados para fornecer a alteração nas chances de por alteração em , ou seja, e . é chamado de odds ratio, . Em inglês, você pode dizer que as probabilidades de aumentam por um fator de por unidade de mudança em .
Exemplo: se você quiser ver como o índice de massa corporal prevê o colesterol no sangue (uma medida contínua), use a regressão linear conforme descrito na parte superior da minha resposta. Se você quiser ver como o IMC prevê as chances de ser diabético (um diagnóstico binário), use a regressão logística.
A regressão linear é usada para estabelecer um relacionamento entre variáveis dependentes e independentes, o que é útil na estimativa da variável dependente resultante no caso de mudança de variável independente. Por exemplo:
Usando uma regressão linear, a relação entre Rain (R) e Umbrella Sales (U) é encontrada - U = 2R + 5000
Esta equação diz que para cada 1mm de chuva, há uma demanda por 5002 guarda-chuvas. Portanto, usando a Regressão Simples, você pode estimar o valor da sua variável.
A regressão logística, por outro lado, é usada para determinar a probabilidade de um evento. E este evento é capturado em formato binário, ou seja, 0 ou 1.
Exemplo - quero verificar se um cliente comprará meu produto ou não. Para isso, eu executaria uma regressão logística nos dados (relevantes) e minha variável dependente seria uma variável binária (1 = Sim; 0 = Não).
Em termos de representação gráfica, a regressão linear fornece uma linha linear como saída, uma vez que os valores são plotados no gráfico. Considerando que, a regressão logística fornece uma linha em forma de S
Referência de Mohit Khurana.
As diferenças foram resolvidas pela DocBuckets e Pardis, mas quero acrescentar uma maneira de comparar o desempenho não mencionado.
A regressão linear é geralmente resolvida minimizando o erro dos mínimos quadrados do modelo para os dados; portanto, grandes erros são penalizados quadraticamente. A regressão logística é exatamente o oposto. O uso da função de perda logística faz com que grandes erros sejam penalizados com uma constante assintoticamente.
Considere regressão linear em resultados categóricos {0,1} para ver por que isso é um problema. Se o seu modelo prevê que o resultado é 38 quando a verdade é 1, você não perdeu nada. A regressão linear tentaria reduzir esses 38, a logística não (o mesmo).