Por que as funções de custo usam o erro quadrado?


73

Estou apenas começando com um aprendizado de máquina e, até agora, tenho lidado com regressão linear sobre uma variável.

Aprendi que existe uma hipótese, que é:

hθ(x)=θ0+θ1x

Para descobrir bons valores para os parâmetros e θ 1 , queremos minimizar a diferença entre o resultado calculado e o resultado real dos nossos dados de teste. Então subtraímosθ0θ1

hθ(x(i))y(i)

para todos os de 1 a m . Portanto, calculamos a soma dessa diferença e depois calculamos a média multiplicando a soma por 1i1m . Por enquanto, tudo bem. Isso resultaria em:1m

1mi=1mhθ(x(i))y(i)

Mas não é isso que foi sugerido. Em vez disso, o curso sugere pegar o valor quadrado da diferença e multiplicar por . Portanto, a fórmula é:12m

12mi=1m(hθ(x(i))y(i))2

Por que é que? Por que usamos a função quadrada aqui e por que multiplicamos por vez de112m ?1m


3
Pergunta relacionada em stats.stackexchange.com
user1205197

Também dê uma olhada na explicação de Chris McCormick em goo.gl/VNiUR5
vimdude 15/17

porque é uma divergência Bregman
Andrew

Respostas:


41

θ1θ0

r(x,y)=1mi=1mhθ(x(i))yh

r

Θ|θ0|<10

Por que usamos a perda quadrada

h(x)yu=v0uv

|uv|(uv)2nn12

Então, por que a perda ao quadrado é melhor do que isso? Essa é uma questão profunda relacionada ao vínculo entre inferência freqüentista e bayesiana . Em resumo, o erro quadrático está relacionado ao ruído gaussiano .

h(x)yθ h yθR=h(X)YyN(μ,σ)

μ=E[R]=1mihθ(X(i))Y(i))σ2=E[R2]=1mi(hθ(X(i))Y(i)))2

  • μh(x)=h(x)μμ=E[R]=0

  • σσ2=1mi(hθ(X(i))Y(i)))2

μ

Perguntas de acompanhamento:

  • 1|xμ|(xμ)21

    • 1
  • hθH

12

mθ

  • 12

    • Ao escrever código ou algoritmos, geralmente nos preocupamos mais com o gradiente, por isso ajuda a mantê-lo conciso. Você pode verificar o progresso apenas verificando a norma do gradiente. Às vezes, a própria função de perda é omitida do código porque é usada apenas para validação da resposta final.
  • mm

    • Eu já deparei com esse problema antes: eu testei o código com um pequeno número de pontos e ele funciona bem, mas quando você o testa com todo o conjunto de dados, há perda de precisão e, às vezes, excesso / subfluxo, ou seja, seu gradiente se torna nanou inf. Para evitar isso, apenas normalize o número errado de pontos de dados.
  • mλm


você disse: "quando você pega a derivada, a expressão é mais bonita, porque o 2 cancela o 2 do termo quadrado". Mas por que queremos tomar sua derivada?
DrGeneral 25/05

Normalmente, otimizamos a perda usando a descida de gradiente, o que requer a derivada. Eu não mencionei isso, porque deveria ficar claro a partir do contexto desta pergunta.
Harsh

11
Duro, perdoe minha ingenuidade, mas por que não usar valor absoluto em vez de quadrado?
Alexander Suraphel 5/09

11
O erro absoluto também pode funcionar, mas, nesse caso, você retornará à mediana esperada, em vez da média. Pegue uma pequena lista de números e ver como a perda difere mudando sua estimativa (para o erro quadrático e absoluto)
Jan van der Vegt

@AlexanderSuraphel Desculpe pela demora em responder :) Eu adicionei uma seção acima para resolver essa
Harsh

25

O coeficiente 1/2 é meramente por conveniência; faz com que a derivada, que é a função realmente otimizada, pareça melhor. O 1 / m é mais fundamental; sugere que estamos interessados ​​no erro médio quadrático. Isso permite que você faça comparações justas ao alterar o tamanho da amostra e evita o estouro. Os chamados otimizadores "estocásticos" usam um subconjunto do conjunto de dados (m '<m). Ao introduzir um regularizador (um termo aditivo à função objetivo), o uso do fator 1 / m permite que você use o mesmo coeficiente para o regularizador, independentemente do tamanho da amostra.

Quanto à questão de por que o quadrado e não simplesmente a diferença: você não quer que as subestimativas sejam penalizadas da mesma forma que as superestimativas? A quadratura elimina o efeito do sinal do erro. Tomando o valor absoluto (norma L1) também, mas sua derivada é indefinida na origem, portanto, requer mais sofisticação para usar. A norma L1 tem seus usos, portanto, lembre-se disso e talvez pergunte ao professor se ele vai cobri-la.


4
L2LpL2

6

A medida de erro na função de perda é uma 'distância estatística'; em contraste com o entendimento popular e preliminar da distância entre dois vetores no espaço euclidiano. Com a 'distância estatística', estamos tentando mapear a 'des-similaridade' entre o modelo estimado e o modelo ideal para o espaço euclidiano.

Não existe uma regra restritiva quanto à formulação dessa 'distância estatística', mas se a escolha for apropriada, uma redução progressiva nessa 'distância' durante a otimização se traduzirá em uma estimativa de modelo cada vez melhor. Consequentemente, a escolha de 'distância estatística' ou medida de erro está relacionada à distribuição de dados subjacente.

De fato, existem várias medidas de distância / erro bem definidas para diferentes classes de distribuições estatísticas. É aconselhável selecionar a medida de erro com base na distribuição dos dados em mãos. Acontece que a distribuição gaussiana é onipresente e, consequentemente, sua medida de distância associada, a norma L2 é a medida de erro mais popular. No entanto, isso não é uma regra e existem dados do mundo real para os quais uma implementação de otimização 'eficiente' * adotaria uma medida de erro diferente da norma L2.

Considere o conjunto de divergências de Bregman . A representação canônica dessa medida de divergência é a norma L2 (erro ao quadrado). Também inclui entropia relativa (divergência de Kullback-Liebler), distância euclidiana generalizada (métrica de Mahalanobis) e função de Itakura-Saito. Você pode ler mais sobre isso neste artigo sobre Divergência funcional de Bregman e estimativa bayesiana de distribuições .

Retirada: a norma L2 possui um conjunto interessante de propriedades, o que a torna uma escolha popular para a medição de erros (outras respostas aqui mencionaram algumas delas, suficientes para o escopo desta pergunta), e o erro ao quadrado será o apropriado escolha na maioria das vezes. No entanto, quando a distribuição de dados exige, existem medidas de erro alternativas para escolher, e a escolha depende em grande parte da formulação da rotina de otimização.

* A medida de erro 'apropriada' tornaria a função de perda convexa para a otimização, o que é muito útil, em oposição a outra medida de erro em que a função de perda é não convexa e, portanto, notoriamente difícil.


5

Além dos pontos-chave apontados por outras pessoas, o uso de erro ao quadrado enfatiza mais o erro maior (o que acontece com 1/2 quando o quadrado versus 3/2?).

Ter um algoritmo que mova os erros fracionários, que provavelmente resultaria em classificação correta ou em uma diferença muito pequena entre a estimativa e a verdade da base, se deixado sozinho próximo de zero, deixando os erros grandes como erros grandes ou erros de classificação, não é uma característica desejável. um algoritmo.

O uso de erro ao quadrado usa o erro como um peso de importância implícita para ajustar a previsão.


Então, qual é o erro arbitrário
jeza 8/08

3

Na sua formulação, você tenta obter o desvio médio da sua aproximação a partir dos dados observados.

Se o valor médio da sua aproximação for próximo ou igual ao valor médio dos dados observados (algo que é desejável e geralmente acontece com muitos esquemas de aproximação), o resultado da sua formulação seria zero ou desprezível, porque erros positivos compensam os negativos erros. Isso pode levar à conclusão de que sua aproximação é maravilhosa em cada amostra observada, embora possa não ser o caso. É por isso que você usa o quadrado do erro em cada amostra e os adiciona (seu turno é positivo para cada erro).

Obviamente, essa é apenas uma solução possível, pois você poderia ter usado a norma L1 (valor absoluto do erro em cada amostra) ou muitas outras, em vez da norma L2.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.