Suponha que você queira estimar um modelo linear: ( observações da resposta preditores)
Uma maneira de fazer isso é através da solução OLS, ou seja, escolha os coeficientes para que a soma dos erros quadrados seja mínima:
Como alternativa, você pode usar outra função de perda, como a soma dos desvios absolutos, para que:
Suponha que você tenha encontrado os parâmetros para os dois modelos e queira escolher o modelo com o menor valor da função de perda. Como você pode comparar os valores mínimos atingidos pelas funções de perda em geral? (ou seja, não apenas neste caso específico - também poderíamos tentar outras funções de perda baseadas em ) Parece haver uma diferença na escala das funções - uma lida com quadrados enquanto a outra não.