Muitas vezes, é afirmado que a minimização de resíduos mínimos quadrados é preferível à minimização de resíduos absolutos devido ao fato de ser computacionalmente mais simples . Mas, também pode ser melhor por outros motivos. Nomeadamente, se as suposições forem verdadeiras (e isso não for tão incomum), ele fornecerá uma solução que é (em média) mais precisa.
Máxima verossimilhança
A regressão de mínimos quadrados e a regressão quantílica (quando realizada minimizando os resíduos absolutos) podem ser vistas como maximização da função de probabilidade para erros distribuídos de Gaussian / Laplace e, nesse sentido, estão muito relacionadas.
Distribuição gaussiana:
f(x)=12πσ2−−−−√e−(x−μ)22σ2
com a probabilidade de log sendo maximizada ao minimizar a soma dos resíduos quadrados
logL(x)=−n2log(2π)−nlog(σ)−12σ2∑i=1n(xi−μ)2sum of squared residuals
Distribuição Laplace:
f(x)=12be−|x−μ|b
com a probabilidade logarítmica maximizada ao minimizar a soma dos resíduos absolutos
logL(x)=−nlog(2)−nlog(b)−1b∑i=1n|xi−μ|sum of absolute residuals
Nota: a distribuição de Laplace e a soma dos resíduos absolutos estão relacionadas à mediana, mas pode ser generalizada para outros quantis, atribuindo pesos diferentes aos resíduos negativos e positivos.
Distribuição de erro conhecida
Quando conhecemos a distribuição de erros (quando as suposições provavelmente são verdadeiras), faz sentido escolher a função de probabilidade associada. Minimizar essa função é mais ideal.
μ
Portanto, quando os erros são distribuídos normalmente, a média da amostra é um estimador melhor da mediana da distribuição do que a mediana da amostra . A regressão de mínimos quadrados é um estimador mais ótimo dos quantis. É melhor do que usar a menor soma de resíduos absolutos.
Como muitos problemas lidam com erros distribuídos normais, o uso do método dos mínimos quadrados é muito popular. Para trabalhar com outro tipo de distribuição, pode-se usar o modelo linear Generalizado . E, o método dos mínimos quadrados iterativos, que pode ser usado para resolver GLMs, também funciona para a distribuição de Laplace (ou seja, para desvios absolutos ), que é equivalente a encontrar a mediana (ou na versão generalizada outros quantis).
Distribuição de erro desconhecida
Robustez
A mediana ou outros quantis têm a vantagem de serem muito robustos em relação ao tipo de distribuição. Os valores reais não importam muito e os quantis se preocupam apenas com o pedido. Portanto, não importa qual seja a distribuição, minimizar os resíduos absolutos (o que equivale a encontrar os quantis) está funcionando muito bem.
A questão se torna complexa e ampla aqui e depende de que tipo de conhecimento temos ou não sobre a função de distribuição. Por exemplo, uma distribuição pode ser distribuída aproximadamente normal, mas apenas com alguns outliers adicionais. Isso pode ser resolvido removendo os valores externos. Essa remoção dos valores extremos funciona até para estimar o parâmetro de localização da distribuição de Cauchy, onde a média truncada pode ser um estimador melhor que a mediana. Portanto, não apenas para a situação ideal em que as suposições se mantêm, mas também para algumas aplicações menos ideais (por exemplo, valores discrepantes adicionais), pode haver bons métodos robustos que ainda usam alguma forma de soma de resíduos quadrados em vez de soma de resíduos absolutos.
Imagino que a regressão com resíduos truncados possa ser computacionalmente muito mais complexa. Portanto, pode ser realmente uma regressão quantil, que é o tipo de regressão que é executada devido ao fato de ser computacionalmente mais simples (não mais simples que os mínimos quadrados comuns, mas mais simples que os mínimos quadrados truncados ).
Parcial / imparcial
Outra questão é tendenciosa contra estimadores imparciais. No exposto, descrevi a estimativa de máxima verossimilhança para a média, ou seja, a solução dos mínimos quadrados, como um estimador bom ou preferível, porque geralmente apresenta a menor variação de todos os estimadores imparciais (quando os erros são distribuídos normalmente). Porém, estimadores tendenciosos podem ser melhores (menor soma esperada do erro ao quadrado).
Isso torna a questão novamente ampla e complexa. Existem muitos estimadores diferentes e muitas situações diferentes para aplicá-los. O uso de uma função adaptada de perda quadrática de resíduos residuais geralmente funciona bem para reduzir o erro (por exemplo, todos os tipos de métodos de regularização), mas pode não ser necessário funcionar bem em todos os casos. Intuitivamente, não é estranho imaginar que, uma vez que a função da soma da perda de resíduos quadráticos geralmente funcione bem para todos os estimadores imparciais, os estimadores tendenciosos ideais são provavelmente algo próximo à soma da função da perda de resíduos quadrados.