Eu gostaria de fornecer uma resposta direta.
Qual é a principal diferença entre a estimativa de máxima verossimilhança (MLE) e a estimativa de mínimos quadrados (LSE)?
Como o @TrynnaDoStat comentou, minimizar o erro ao quadrado é equivalente a maximizar a probabilidade nesse caso. Como dito na Wikipedia ,
Em um modelo linear, se os erros pertencem a uma distribuição normal, os estimadores de mínimos quadrados também são os estimadores de probabilidade máxima.
eles podem ser vistos da mesma forma no seu caso,
Deixe-me detalhar um pouco. Como sabemos que a variável de resposta ( )
possui um modelo de distribuição de erro normal,
a função de probabilidade é:
Obviamente, maximizar L é equivalente a minimizar
Esse é o método dos mínimos quadrados.yYi=λ1Xi+λ2+ϵi where ϵ∼N(0,σ2)
L(Y1,…,Yn;λ1,λ2,σ2)=1(2π)n2σnexp(−12σ2(∑i=1n(Yi−λ1Xi−λ2)2))
∑i=1n(Yi−λ1Xi−λ2)2
Por que não podemos usar o MLE para prever valores de em regressão linear e vice-versa? y
Como explicado acima, na verdade (mais precisamente), estamos usando o MLE para prever valores . E se a variável resposta tiver distribuições arbitrárias em vez da distribuição normal, como a distribuição de Bernoulli ou qualquer outra da família exponencial , mapeamos o preditor linear para a distribuição da variável de resposta usando uma função de link (de acordo com a distribuição de resposta), a função de probabilidade se torna o produto de todos os resultados (probabilidades entre 0 e 1) após a transformação. Podemos tratar a função de link na regressão linear como a função de identidade (já que a resposta já é uma probabilidade).y