Respostas:
Essa pergunta é bastante antiga, mas na verdade tenho uma resposta que não aparece aqui e uma que fornece uma razão convincente para que (sob algumas suposições razoáveis) o erro ao quadrado esteja correto, enquanto qualquer outra potência esteja incorreta.
Digamos que têm alguns dados e deseja encontrar a função linear (ou qualquer outra) f que melhor prediz os dados, no sentido de que a densidade de para observar esses dados deve ser máxima em relação a f (isso é chamado deestimativa de máxima verossimilhança ). Se assumirmos que os dados são dados por mais um termo de erro normalmente distribuído com desvio padrão σ , então i = 1 1 Isso é equivalente a 1
Não há motivo para você não tentar minimizar outras normas além de x ^ 2; já existem livros inteiros escritos sobre regressão quantílica, por exemplo, o que minimiza mais ou menos | x | se você estiver trabalhando com a mediana. Geralmente, é mais difícil de fazer e, dependendo do modelo de erro, pode não fornecer bons estimadores (dependendo se isso significa estimadores de baixa variância ou não imparciais ou baixos de MSE no contexto).
Quanto ao motivo pelo qual preferimos momentos inteiros a momentos com valor real, a principal razão é provável que, enquanto potências inteiras de números reais sempre resultem em números reais, potências não inteiras de números reais negativos criem números complexos, exigindo o uso de um valor absoluto. Em outras palavras, enquanto o terceiro momento de uma variável aleatória com valor real é real, o 3.2º momento não é necessariamente real e, portanto, causa problemas de interpretação.
Fora isso ...
Tentamos minimizar a variação que resta nos descritores. Por que variação? Leia esta pergunta ; isso também vem junto com a suposição (quase silenciosa) de que os erros são normalmente distribuídos.
Extensão:
dois argumentos adicionais:
Para variações, temos essa "lei" legal de que a soma das variações é igual à variação da soma, para amostras não correlacionadas. Se assumirmos que o erro não está correlacionado com o caso, minimizar o resíduo de quadrados funcionará diretamente para maximizar a variação explicada, o que talvez seja uma medida de qualidade não tão boa, mas ainda popular.
Se assumirmos a normalidade de um erro, o estimador de erro de mínimos quadrados é o de probabilidade máxima.
Nos mínimos quadrados comuns, a solução para (A'A) ^ (- 1) x = A'b minimiza a perda de erro ao quadrado e é a solução de probabilidade máxima.
Então, principalmente porque a matemática foi fácil nesse caso histórico.
Mas geralmente as pessoas minimizam muitas funções de perda diferentes , como exponencial, logística, cauchy, laplace, huber, etc. Essas funções de perda mais exóticas geralmente exigem muitos recursos computacionais e não têm soluções de forma fechada (em geral), portanto eles estão apenas começando a se tornar mais populares agora.