A questão é muito simples: por que, quando tentamos ajustar um modelo aos nossos dados, lineares ou não lineares, geralmente tentamos minimizar a soma dos quadrados dos erros para obter nosso estimador para o parâmetro do modelo? Por que não escolher outra função objetiva para minimizar? Entendo que, por razões técnicas, a função quadrática é mais agradável do que algumas outras funções, por exemplo, soma do desvio absoluto. Mas essa ainda não é uma resposta muito convincente. Além dessa razão técnica, por que, em particular, as pessoas são a favor desse "tipo euclidiano" de função à distância? Existe um significado ou interpretação específica para isso?
A lógica por trás do meu pensamento é a seguinte:
Quando você tem um conjunto de dados, primeiro configura seu modelo fazendo um conjunto de suposições funcionais ou distributivas (por exemplo, alguma condição de momento, mas não toda a distribuição). No seu modelo, existem alguns parâmetros (suponha que seja um modelo paramétrico), então você precisa encontrar uma maneira de estimar consistentemente esses parâmetros e, esperançosamente, seu estimador terá baixa variação e algumas outras propriedades interessantes. Se você minimizar o SSE ou LAD ou alguma outra função objetiva, acho que são apenas métodos diferentes para obter um estimador consistente. Seguindo essa lógica, pensei que as pessoas usassem o quadrado mínimo deve ser 1) produz estimador consistente do modelo 2) outra coisa que eu não conheço.
Na econometria, sabemos que no modelo de regressão linear, se você assumir que os termos do erro têm 0 condicionamento médio nos preditores e a homoscedasticidade e os erros não estiverem correlacionados entre si, a minimização da soma do erro quadrado fornecerá um estimador CONSISTENTE do seu modelo parâmetros e pelo teorema de Gauss-Markov, esse estimador é AZUL. Portanto, isso sugere que, se você optar por minimizar alguma outra função objetiva que não seja o SSE, não haverá garantia de obter um estimador consistente do parâmetro do seu modelo. Meu entendimento está correto? Se estiver correto, a minimização do SSE, em vez de alguma outra função objetiva, pode ser justificada pela consistência, o que é aceitável, de fato, melhor do que dizer que a função quadrática é melhor.
Na prática, eu realmente vi muitos casos em que as pessoas minimizam diretamente a soma dos erros quadrados sem primeiro especificar claramente o modelo completo, por exemplo, as premissas distributivas (suposições de momento) sobre o termo do erro. Então, parece-me que o usuário desse método quer apenas ver o quão perto os dados se encaixam no 'modelo' (eu uso aspas, pois as suposições do modelo provavelmente estão incompletas) em termos da função de distância quadrada.
Uma questão relacionada (também relacionada a este site) é: por que, quando tentamos comparar modelos diferentes usando a validação cruzada, usamos novamente o SSE como critério de julgamento? ou seja, escolha o modelo que tem menos SSE? Por que não outro critério?