A medida de erro na função de perda é uma 'distância estatística'; em contraste com o entendimento popular e preliminar da distância entre dois vetores no espaço euclidiano. Com a 'distância estatística', estamos tentando mapear a 'des-similaridade' entre o modelo estimado e o modelo ideal para o espaço euclidiano.
Não existe uma regra restritiva quanto à formulação dessa 'distância estatística', mas se a escolha for apropriada, uma redução progressiva nessa 'distância' durante a otimização se traduzirá em uma estimativa de modelo cada vez melhor. Consequentemente, a escolha de 'distância estatística' ou medida de erro está relacionada à distribuição de dados subjacente.
De fato, existem várias medidas de distância / erro bem definidas para diferentes classes de distribuições estatísticas. É aconselhável selecionar a medida de erro com base na distribuição dos dados em mãos. Acontece que a distribuição gaussiana é onipresente e, consequentemente, sua medida de distância associada, a norma L2 é a medida de erro mais popular. No entanto, isso não é uma regra e existem dados do mundo real para os quais uma implementação de otimização 'eficiente' * adotaria uma medida de erro diferente da norma L2.
Considere o conjunto de divergências de Bregman . A representação canônica dessa medida de divergência é a norma L2 (erro ao quadrado). Também inclui entropia relativa (divergência de Kullback-Liebler), distância euclidiana generalizada (métrica de Mahalanobis) e função de Itakura-Saito. Você pode ler mais sobre isso neste artigo sobre Divergência funcional de Bregman e estimativa bayesiana de distribuições .
Retirada: a norma L2 possui um conjunto interessante de propriedades, o que a torna uma escolha popular para a medição de erros (outras respostas aqui mencionaram algumas delas, suficientes para o escopo desta pergunta), e o erro ao quadrado será o apropriado escolha na maioria das vezes. No entanto, quando a distribuição de dados exige, existem medidas de erro alternativas para escolher, e a escolha depende em grande parte da formulação da rotina de otimização.
* A medida de erro 'apropriada' tornaria a função de perda convexa para a otimização, o que é muito útil, em oposição a outra medida de erro em que a função de perda é não convexa e, portanto, notoriamente difícil.