Você não precisa . A função de perda tem o mesmo mínimo, independentemente de você incluir o ou suprimi-lo. Se você incluí-lo, obtém a boa interpretação de minimizar (metade) o erro médio por ponto de dados. Em outras palavras, você está minimizando a taxa de erro em vez do erro total.1m
Considere comparar o desempenho em dois conjuntos de dados de tamanhos diferentes. A soma bruta de erros ao quadrado não é diretamente comparável, pois conjuntos de dados maiores tendem a ter mais erro total devido ao seu tamanho. Por outro lado, o erro médio por ponto de dados é .
Você pode elaborar um pouco?
Certo. Seu conjunto de dados é uma coleção de pontos de dados . Depois de ter um modelo , o erro de mínimos quadrados de em um único ponto de dados é{xi,yi}hh
(h(xi)−yi)2
é claro que isso é diferente para cada ponto de dados. Agora, se simplesmente resumirmos os erros (e multiplicarmos pela metade pela razão que você descreve), obteremos o erro total
12∑i(h(xi)−yi)2
mas se dividirmos pelo número de somas, obtemos o erro médio por ponto de dados
12m∑i(h(xi)−yi)2
O benefício do erro médio é que, se tivermos dois conjuntos de dados e de tamanhos diferentes , poderemos comparar os erros médios, mas não os erros totais. Pois se o segundo conjunto de dados for, digamos, dez vezes o tamanho do primeiro, esperaríamos que o erro total fosse cerca de dez vezes maior para o mesmo modelo. Por outro lado, o erro médio divide o efeito do tamanho do conjunto de dados e, portanto, esperamos que modelos de desempenho semelhante tenham erros médios semelhantes em diferentes conjuntos de dados.{xi,yi}{x′i,y′i}