Como a distribuição do termo de erro afeta a distribuição da resposta?

14

Portanto, quando suponho que os termos do erro sejam normalmente distribuídos em uma regressão linear, o que isso significa para a variável de resposta ? $y$

regression distributions

— MarkDollar
fonte

7

Talvez eu esteja de folga, mas acho que deveríamos estar pensando em , que é como eu leio o OP. No caso mais simples de regressão linear, se o seu modelo for , o único componente estocástico no seu modelo é o termo do erro. Como tal, determina a distribuição amostral de . Se , em seguida, $f(y|\beta, X)$ $y=X\beta + \epsilon$ $y$ $\epsilon\sim N(0, \sigma^2I)$ . O que @Aniko diz é certamente verdade sobre (marginalmente acima de ), no entanto. Portanto, a questão é um pouco vaga. $y|X, \beta\sim N(X\beta, \sigma^2I)$ $f(y)$ $X, \beta$

— JMS
fonte

Eu gosto de todos os comentários! E todos eles parecem estar certos. Mas eu estava apenas procurando a resposta mais fácil :) O que acontece quando você assume que o termo incorreto é distribuído normalmente. Que isso ocorra agora com muita frequência na realidade fica claro com as outras respostas! Muito obrigado!

— MarkDollar

17

A resposta curta é que você não pode concluir nada sobre a distribuição de , porque depende da distribuição dos e da força e forma do relacionamento. Mais formalmente, terá uma distribuição de "mistura de normais", que na prática pode ser praticamente qualquer coisa. $y$ $x$ $y$

Aqui estão dois exemplos extremos para ilustrar isso:

Suponha que haja apenas dois valores possíveis de , 0 an 1 e . Então terá uma distribuição fortemente bimodal com saliências em 0 e 10. $x$ $y = 10x + N(0,1)$ $y$
Agora assuma o mesmo relacionamento, mas permita que seja distribuído uniformemente no intervalo 0-1 com muitos valores. Então será distribuído quase uniformemente no intervalo de 0 a 10 (com algumas caudas semi-normais nas bordas). $x$ $y$

De fato, como toda distribuição pode ser aproximada arbitrariamente bem com a mistura de normais, é possível obter realmente qualquer distribuição para . $y$

— Aniko
fonte

8

+1 Quanto à última afirmação: uma vez cometi o erro de pensar isso também. Matematicamente, você está correto, mas, na prática, é quase impossível aproximar um pico não diferenciável de normais (como distribuições em forma de J ou U): os normais são muito baixos em seus picos para capturar a densidade dos picos. Você precisa de muitos componentes. As normais são boas para aproximar distribuições cujos PDFs são muito suaves.

— whuber

1

@whuber concordou. Eu não sugeriria usar uma aproximação de mistura normal para qualquer distribuição na prática; estava apenas tentando dar um contra-exemplo extremo.

— Aniko 27/05

5

Inventamos o termo de erro impondo um modelo fictício a dados reais; a distribuição do termo de erro não afeta a distribuição da resposta.

Geralmente assumimos que o erro é distribuído normalmente e, portanto, tentamos construir o modelo de modo que nossos resíduos estimados sejam normalmente distribuídos. Isso pode ser difícil para algumas distribuições de . Nesses casos, suponho que você possa dizer que a distribuição da resposta afeta o termo do erro. $y$

— Thomas Levine
fonte

2

"Nós muitas vezes tentam construir o modelo de tal forma que o nosso termo de erro é normalmente distribuída" - para ser mais preciso, eu acho que você está se referindo ao resíduos

. Estas são as estimativas dos termos de erro, da mesma forma que

é uma estimativa de

. Gostaríamos que os resíduos parecessem normais, porque é o que assumimos sobre os termos de erro para começar. Nós "inventamos" o termo de erro especificando um modelo, não o ajustando.

y - X \hat{β}

$y-X\hat\beta$

X \hat{β}

$X\hat\beta$

E (y) = X β

$\mathbb{E}(y)=X\beta$

— JMS 28/05

Eu concordo com a sua precisão, JMS. +1 e eu ajustarei minha resposta.

— Thomas Levine

2

Se você escrever a resposta como Onde é o "modelo" (a previsão para ) são os "erros", isso pode ser reorganizado para indicar basicamente diz que os erros são pequenos em unidades de . A idéia é que as previsões do modelo tendem a ser "erradas" em quantidades semelhantes para observações diferentes e são "quase certas" na escala de . Por outro lado, uma atribuição alternativa é

y = m + e

$\bf{y}=m+e$

m

$\bf{m}$

y

$\bf{y}$

e

$\bf{e}$

y - m = e

$\bf{y}-m=e$ . Portanto, atribuir uma distribuição para os erros é o mesmo que indicar as maneiras pelas quais seu modelo está incompleto. Em outras palavras, indica em que medida você não sabe por que a resposta observada foi o valor que realmente era e não o que o modelo previu. Se você soubesse que seu modelo era perfeito, atribuiria uma distribuição de probabilidade com toda a sua massa em zero para os erros. Atribuindo um

N (0, σ^{2})

$N(0,\sigma^{2})$

σ

$\sigma$

σ

$\sigma$

que diz que a maioria dos erros é pequena, mas alguns são grandes - o modelo apresenta ocasionalmente "erro" ou "choque" em termos de prever a resposta.

C a u c h y (0, γ)

$Cauchy(0,\gamma)$

Em certo sentido, a distribuição de erros está mais intimamente ligada ao modelo do que à resposta. Isto pode ser visto a partir da não-identificabilidade da equação acima, para se ambos e são desconhecidos, em seguida, adicionando um vector arbitrário para e subtraindo-o leva para o mesmo valor de , . A atribuição de uma distribuição de erro e uma equação de modelo basicamente diz quais vetores arbitrários são mais plausíveis que outros. $\bf{m}$ $\bf{e}$ $\bf{m}$ $\bf{e}$ $\bf{y}$ $\bf{y}=m+e=(m+b)+(e-b)=m'+e'$

— probabilityislogic
fonte

H_{0} : y \sim f_{0}

$H_0: y\sim f_0$

H_{1} : y \sim f_{1}

$H_1: y\sim f_1$

n

$n$

y_{i}

$y_i$

Y

$Y$

x_{i}

$x_i$

Y = X β + ϵ

$Y = X\beta + \epsilon$

ϵ

$\epsilon$

Y | β, X

$Y|\beta, X$

@JMS - Acho que devo excluir esse primeiro parágrafo. Acho que não acrescenta nada à minha resposta (além de confusão).

— probabilityislogic

uma das minhas coisas favoritas para adicionar aos meus respostas :)

— JMS