Qual é a diferença entre a variação e o erro médio quadrático?

Estou surpreso que isso não tenha sido feito antes, mas não consigo encontrar a pergunta em stats.stackexchange.

Esta é a fórmula para calcular a variação de uma amostra normalmente distribuída:

\frac{\sum (X - \bar{X})^{2}}{n - 1}

$\frac{\sum(X - \bar{X}) ^2}{n-1}$

Esta é a fórmula para calcular o erro quadrático médio das observações em uma regressão linear simples:

\frac{\sum (y_{i} - {\hat{y}}_{i})^{2}}{n - 2}

$\frac{\sum(y_i - \hat{y}_i) ^2}{n-2}$

Qual é a diferença entre essas duas fórmulas? A única diferença que posso ver é que o MSE usa . Então, se essa é a única diferença, por que não se referir a elas como a variação, mas com diferentes graus de liberdade? $n-2$

variance error

— luciano
fonte

O que há na página da wikipedia aqui que não está clara?

— TrynnaDoStat

Variância é a média do desvio ao quadrado das observações da média. O MSE, por outro lado, é a média dos desvios quadrados das previsões em relação aos valores reais.

— random_guy

Tanto a "variação" quanto o "erro quadrático médio" têm várias fórmulas e aplicações variadas. Para esclarecer sua pergunta, você poderia (a) descrever a que tipo de dados está aplicando esses conceitos e (b) fornecer fórmulas para eles? (É provável que ao fazê-lo você vai descobrir a resposta à sua pergunta, também.)

— whuber

\frac{\sum_{i} (y_{i} - {\hat{y}}_{i})^{2}}{n - p}

$\frac{\sum_i(y_i-\hat{y}_i)^2}{n-p}$

p

$p$

\hat{y}

$\hat{y}$

@Glen_b, você poderia fornecer uma referência para obter mais informações sobre esta fórmula geral?

— trianta2 12/11

Respostas:

O erro quadrático médio que você escreveu para o OLS está ocultando algo:

\frac{\sum_{i}^{n} (y_{i} - {\hat{y}}_{i})^{2}}{n - 2} = \frac{\sum_{i}^{n} {[y_{i} - ({\hat{β}}_{0} + {\hat{β}}_{x} x_{i})]}^{2}}{n - 2}

$\frac{\sum_{i}^{n}(y_i - \hat{y}_i) ^2}{n-2} = \frac{\sum_{i}^{n}\left[y_i - \left(\hat{\beta}_{0} + \hat{\beta}_{x}x_{i}\right)\right] ^2}{n-2}$

$y$ $x$ $n-2$

No entanto, você está no caminho certo ao perceber que essas são quantidades conceitualmente semelhantes. A variação da amostra mede a dispersão dos dados em torno da média da amostra (em unidades ao quadrado), enquanto o MSE mede a dispersão vertical dos dados em torno da linha de regressão da amostra (em unidades verticais ao quadrado).

— Alexis
fonte

@amoeba Hey! Grata pela atenção. Existe um guia de estilo de currículo oficial que levou a essa edição? Se assim for, eu quero aprender sobre isso. Se não, bem, Glen_b uma vez me advertiu com razão por estar colonizando com minhas preferências pessoais de estilo e editando outras perguntas e respostas. O que você acha? (E peço isto em um tom colegial: Eu acho que a sua edição não adicionar algo só quero entender nossos valores edição melhor..)

— Alexis

Não acho que exista um guia oficial de estilo de currículo fazendo essa sugestão, mas no LaTeX existem fórmulas em linha (marcadas com um cifrão) que são renderizadas diretamente no bloco de texto e as fórmulas exibidas (marcadas com dois cifrões) que são renderizados em uma linha separada. As fórmulas exibidas usam layout diferente. Sua fórmula estava originalmente em uma linha separada, mas marcada com um cifrão; Eu não acho que isso faz sentido. No entanto, você está certo quanto às preferências pessoais, portanto, sinta-se à vontade para reverter suas desculpas. A razão pela qual editei foi que eu estava corrigindo um erro de digitação no Q de qualquer maneira.

— Ameba diz Restabelecer Monica

β_{0}

$\beta_0$

n - 1

$n-1$

n - 2

$n-2$

$n$ $n-1$ $n$ $n-1$

$= \beta_{0} + \beta_{1}\times x$ $\beta_{0}$ $\beta_{1}$ $n-2$

— Brajesh Kumar
fonte