Portanto, quando suponho que os termos do erro sejam normalmente distribuídos em uma regressão linear, o que isso significa para a variável de resposta ?
Portanto, quando suponho que os termos do erro sejam normalmente distribuídos em uma regressão linear, o que isso significa para a variável de resposta ?
Respostas:
Talvez eu esteja de folga, mas acho que deveríamos estar pensando em , que é como eu leio o OP. No caso mais simples de regressão linear, se o seu modelo for y = X β + ϵ , o único componente estocástico no seu modelo é o termo do erro. Como tal, determina a distribuição amostral de y . Se ε ~ N ( 0 , σ 2 I ) , em seguida, y | X , β ∼ N ( X β , . O que @Aniko diz é certamente verdade sobre f ( y ) (marginalmente acima de X , β ), no entanto. Portanto, a questão é um pouco vaga.
A resposta curta é que você não pode concluir nada sobre a distribuição de , porque depende da distribuição dos xs e da força e forma do relacionamento. Mais formalmente, y terá uma distribuição de "mistura de normais", que na prática pode ser praticamente qualquer coisa.
Aqui estão dois exemplos extremos para ilustrar isso:
De fato, como toda distribuição pode ser aproximada arbitrariamente bem com a mistura de normais, é possível obter realmente qualquer distribuição para .
Inventamos o termo de erro impondo um modelo fictício a dados reais; a distribuição do termo de erro não afeta a distribuição da resposta.
Geralmente assumimos que o erro é distribuído normalmente e, portanto, tentamos construir o modelo de modo que nossos resíduos estimados sejam normalmente distribuídos. Isso pode ser difícil para algumas distribuições de . Nesses casos, suponho que você possa dizer que a distribuição da resposta afeta o termo do erro.
Se você escrever a resposta como Onde m é o "modelo" (a previsão para y ) ee são os "erros", isso pode ser reorganizado para indicar y - m = e 0 , σ 2 ) basicamente diz que os erros são pequenos em unidades de σ . A idéia é que as previsões do modelo tendem a ser "erradas" em quantidades semelhantes para observações diferentes e são "quase certas" na escala de σ . Por outro lado, uma atribuição alternativa é C a u c h y
Em certo sentido, a distribuição de erros está mais intimamente ligada ao modelo do que à resposta. Isto pode ser visto a partir da não-identificabilidade da equação acima, para se ambos e E são desconhecidos, em seguida, adicionando um vector arbitrário para m e subtraindo-o e leva para o mesmo valor de y , y = m + e = ( m + b ) + ( e - b ) = m ′ . A atribuição de uma distribuição de erro e uma equação de modelo basicamente diz quais vetores arbitrários são mais plausíveis que outros.