Teoricamente, o termo de interceptação em um modelo de regressão logística captura todos os efeitos não observados?
Essa é uma pergunta interessante, e posso ver como, com alguns experimentos simples, podemos pensar que esse é o caso. De fato, na minha primeira tentativa de configurar isso, na verdade, criei uma demonstração que estimaria incorretamente a interceptação apenas quando eu especifiquei incorretamente o modelo - caso contrário, todas as estimativas de coeficiente estavam corretas!
Em uma regressão OLS, o termo de erro é o local em que gostaríamos que todos os efeitos pelos quais não contabilizamos ir ... mas se houver efeitos pelos quais não contabilizamos (ou seja, o modelo está especificado incorretamente) então eles tenderão a criar suas cabeças em outros aspectos do modelo, principalmente se houver relacionamentos confusos entre as variáveis. Isso também se aplica a todos os outros métodos de regressão convencionais - se o modelo for especificado incorretamente, as estimativas do coeficiente não são confiáveis (mas talvez as previsões sejam úteis ou o modelo tenha outro objetivo útil).
β0 0= 10 , β1= - 5 , β2= 5x2
set.seed(13)
N <- 100
inv_logit <- function(x){
ifelse(x< -20, -20, x)
out <- 1/(1+exp(-x))
return(out)
}
x0 <- rep(1, N)
x1 <- rnorm(N)
x2 <- rnorm(N, mean=10+3*x1-0.5*x1^2)
zTransform <- cbind(x0, x1, x2)%*%c(-10,-5,1)
summary(zTransform)
yObs <- rbinom(N, size=1, prob=inv_logit(zTransform))
badModel <- glm(yObs~x1, family=binomial(link="logit"))
summary(badModel)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.1404 0.2327 -0.604 0.546
x1 -1.3417 0.3041 -4.412 1.02e-05 ***
Mas se especificarmos corretamente o modelo, obteremos nossos coeficientes de volta, mas com algum erro de estimativa.
goodModel <- glm(yObs~x1+x2, family=binomial(link="logit"))
summary(goodModel)
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -9.9512 2.9331 -3.393 0.000692 ***
x1 -4.8657 1.1918 -4.083 4.45e-05 ***
x2 0.9970 0.2948 3.382 0.000720 ***
Em outras palavras, em um modelo de regressão logística com um ajuste perfeito (ou seja, todas as variáveis relevantes estão incluídas), o termo de interceptação deve ser zero, certo?
Por que isso seria o caso? Suponha que você esteja realizando uma regressão logística e que não tenha covariáveis - por exemplo, seu experimento está rolando um dado e a cada 6 é um "sucesso" e todos os outros resultados são um fracasso (talvez você esteja fazendo garantia de qualidade por um cassino). Se assumirmos que os dados são justos, você estimaria o coeficiente com algum valor diferente de zero, puramente porque há resultados mais desfavoráveis do que resultados favoráveis em seus dados.
É importante entender que você fez duas perguntas diferentes em sua postagem. A primeira pergunta se a interceptação captura efeitos não modelados (isso não acontece! Todas as estimativas de coeficiente estão erradas quando o modelo é especificado incorretamente!) A segunda pergunta pergunta se a interceptação deve ser zero - e a resposta também é não, porque o termo de interceptação é fixado pela razão entre "sucessos" e "falhas".