Distribuição de erros para regressão linear e logística

Com dados contínuos, uma regressão linear $Y=\beta_1+\beta_2X_2+u$ assume que o termo de erro está distribuído N (0, $\sigma^2$ )

1) Assumimos que Var (Y | x) é igualmente ~ N (0, $\sigma^2$ )?

2) Qual é essa distribuição de erro na regressão logística? Quando os dados estão no formato de 1 registro por caso, onde o "Y" é 1 ou 0, é o termo de erro distribuído Bernoulli (ou seja, a variação é p (1-p))) e quando os dados estão no formato # sucessos de #de tentativas, é assumido binomial (ou seja, a variação é np (1-p)), onde p é a probabilidade de Y ser 1?

logistic generalized-linear-model

— B_Miner
fonte

Você não está sendo preciso. A suposição do modelo é que os termos do erro são independentes e distribuídos de forma idêntica com uma distribuição que é N (0, σ

) e não está relacionada ao COVARIATE. O que é Var (Y | x)? Você está condicionando em X

= x? O modelo assume que a covariável é aleatória de alguma forma ou então assumimos que a covariável é fixa de acordo com uma matriz de design? Penso que é o último e, por conseguinte, Var (Y | X

= X) é implicada pelas hipóteses e não necessita de ser assumida.

^{2}

$^2$

_{2}

$_2$

_{2}

$_2$

— Michael R. Chernick

@MichaelChernick Por que o modelo assume que o

é fixo? Certamente pode ser o caso de ser corrigido, mas também pode ser aleatório. Nada na pergunta implica um para mim.

X_{2}

$X_2$

— Peter Flom - Restabelece Monica

@PeterFlom Li na pergunta que a regressão linear com essa distribuição de erro assumida significava que o OLS exige que o X

seja corrigido e conhecido. Se alguém tiver regressão de Deming (ou seja, erro na regressão de variáveis), isso será especificado na pergunta. Observar a resposta que Stat deu indica que ele também interpôs a pergunta dessa maneira.

_{2}

$_2$

— Michael R. Chernick 22/09/12

— @ Michael

1) Se tiver distribuição normal, ou seja, então , uma vez que $u$ $N(0,σ^2)$ $Var(Y|X_2)=Var(β_1+β_2X_2)+Var(u)=0+σ^2=σ^2$ $β_1+β_2X_2$ não é uma variável aleatória.

2) Na regressão logística, assume-se que os erros sigam uma distribuição binomial como mencionado aqui . É melhor escrevê-lo como , uma vez que essas probabilidades dependem de , conforme referenciadoaquiou emRegressão logística aplicada. $Var(Y_j|X_j)=m_j.E[Y_j|X_j].(1-E[Y_j|X_j])=m_j\pi(X_j).(1-\pi(X_j))$ $X_j$

— Estado
fonte

Stat, Assim, é correto dizer que a variância para o om erro individual,

, é

(1-

), que é equivalente ao que você tem mostrado assumindo que existem mais de 1 observação nos dados com o mesmo padrão covariável (ou seja,

= 1 para todos os j)?

e_{i}

$e_i$

p_{i}

$p_i$

p_{i}

$p_i$

m_{j}

$m_j$

— B_Miner 22/09/12

Sim isto está correcto. Se

com

, então

com probabilidade

Y_{i} = p_{i} + e_{i}

$Y_i=p_i+e_i$

P (Y_{i} = 1) = 1 - P (Y_{i} = 0) = p_{i}

$P(Y_i=1)=1-P(Y_i=0)=p_i$

e_{i} = 1 - p_{i}

$e_i=1-p_i$

p_{i}

$p_i$

e_{i} = - p_{i}

$e_i=-p_i$

. Portanto,

1 - p_{i}

$1-p_i$

tem uma distribuição com média

e_{i}

$e_i$

e variância igual a

0

$0$

p_{i} (1 - p_{i})

$p_i(1-p_i)$

— Stat

Um ponto adicional aqui, Stat, temos que assumir que os X são fixos, não aleatórios para Var (Y | X) = Var (e) para ambos os casos de regressão linear e logística corretos?

— B_Miner

com probabilidade

é não uma distribuição binomial para

e_{i} = 1 - p_{i}

$e_i=1−p_i$

p_{i}

$p_i$

e_{i} = - p_{i}

$e_i=−p_i$

1 - p_{i}

$1−p_i$

e_{i}

$e_i$

— Scortchi - Restabelece Monica

B_Miner:

significa a variação de

condicional na variável aleatória

assume um valor observado

. Portanto, é irrelevante se seus preditores são corrigidos por um experimento ou observados em uma amostra: o que o @ Stat está dizendo é que eles não estão mais sendo considerados como variáveis aleatórias para fins de regressão.

Var (Y | X) = Var (Y | X = x)

$\operatorname{Var}(Y|X)=\operatorname{Var}(Y|X=x)$

Y

$Y$

X

$X$

x

$x$

— Scortchi - Restabelece Monica