Como interpretar o erro médio quadrático da raiz (RMSE) vs o desvio padrão?


21

Digamos que eu tenho um modelo que me fornece valores projetados. Eu calculo o RMSE desses valores. E então o desvio padrão dos valores reais.

Faz algum sentido comparar esses dois valores (variações)? O que eu acho é que, se o RMSE e o desvio padrão forem semelhantes / iguais, o erro / variação do meu modelo será o mesmo que realmente está acontecendo. Mas se nem faz sentido comparar esses valores, então esta conclusão pode estar errada. Se meu pensamento for verdadeiro, isso significa que o modelo é o melhor possível, porque não pode atribuir o que está causando a variação? Eu acho que a última parte provavelmente está errada ou pelo menos precisa de mais informações para responder.

Respostas:


22

Digamos que nossas respostas sejam e nossos valores previstos são .y1,...,yny^1,...,y^n

A variação da amostra (usando vez de para simplificar) é enquanto o MSE é . Assim, a variação da amostra fornece quanto as respostas variam em torno da média, enquanto o MSE indica quanto as respostas variam em torno de nossas previsões. Se pensarmos na média geral como o preditor mais simples que jamais consideraríamos, comparando o MSE com a variação da amostra das respostas, podemos ver quanto mais variação explicamos com nosso modelo. É exatamente isso que o valor faz na regressão linear.nn-11nEu=1n(yEu-y¯)21nEu=1n(yEu-y^Eu)2y¯R2

Considere a seguinte figura: A variação da amostra de é a variabilidade em torno da linha horizontal. Se projetarmos todos os dados no eixo , podemos ver isso. O MSE é a distância quadrática média da linha de regressão, ou seja, a variabilidade em torno da linha de regressão (ou seja, ). Portanto, a variabilidade medida pela variação da amostra é a distância ao quadrado média da linha horizontal, o que podemos ver é substancialmente mais do que a distância ao quadrado média da linha de regressão. yEuYy^Euinsira a descrição da imagem aqui


5

Eu(yEu-y^Eu)2n-p,

Eu(yEu-y¯)2n-1,
y¯yEu

y^Eu=y¯y¯

y^Eu

Eu(yEu-y^Eu)2n,

qual é o mais fácil de calcular.


Não tenho o privilégio de comentar a resposta de @Chaconne, mas duvido que sua última afirmação tenha um erro de digitação, onde ele diz: "Portanto, a variabilidade medida pela variação da amostra é a distância quadrada média da linha horizontal, o que podemos veja é substancialmente menor que a distância quadrada média da linha ". Mas na figura de sua resposta, a previsão dos valores y com a linha é bastante precisa, o que significa que o MSE é pequeno, pelo menos muito melhor do que a "previsão" com um valor médio.
Xiao-Feng Li

3

1nEu=1n(yEu-y¯)2

1nEu=1n(yEu-y^Eu)2

Esse argumento se aplica a outras medidas de erro, não apenas ao RMSE, mas o RMSE é particularmente atraente para comparação direta com o SD, porque suas fórmulas matemáticas são análogas.


Essa é a melhor resposta, porque explica como a comparação pode ser útil, em vez de apenas descrever as diferenças.
Hans
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.