A interceptação em uma regressão logística captura os efeitos não observados?

8

Teoricamente, o termo de interceptação em um modelo de regressão logística captura todos os efeitos não observados?

Em outras palavras, em um modelo de regressão logística com um ajuste perfeito (ou seja, todas as variáveis relevantes estão incluídas), o termo de interceptação deve ser zero, certo?

logistic intercept

— student_of_life
fonte

6

Teoricamente, o termo de interceptação em um modelo de regressão logística captura todos os efeitos não observados?

Essa é uma pergunta interessante, e posso ver como, com alguns experimentos simples, podemos pensar que esse é o caso. De fato, na minha primeira tentativa de configurar isso, na verdade, criei uma demonstração que estimaria incorretamente a interceptação apenas quando eu especifiquei incorretamente o modelo - caso contrário, todas as estimativas de coeficiente estavam corretas!

Em uma regressão OLS, o termo de erro é o local em que gostaríamos que todos os efeitos pelos quais não contabilizamos ir ... mas se houver efeitos pelos quais não contabilizamos (ou seja, o modelo está especificado incorretamente) então eles tenderão a criar suas cabeças em outros aspectos do modelo, principalmente se houver relacionamentos confusos entre as variáveis. Isso também se aplica a todos os outros métodos de regressão convencionais - se o modelo for especificado incorretamente, as estimativas do coeficiente não são confiáveis (mas talvez as previsões sejam úteis ou o modelo tenha outro objetivo útil).

$\beta_0=10, \beta_1=-5, \beta_2=5.$ $x_2$

set.seed(13)
N <- 100

inv_logit <- function(x){
    ifelse(x< -20, -20, x)
    out <- 1/(1+exp(-x))
    return(out)
}

x0 <- rep(1, N)
x1 <- rnorm(N)
x2 <- rnorm(N, mean=10+3*x1-0.5*x1^2)
zTransform <- cbind(x0, x1, x2)%*%c(-10,-5,1)
summary(zTransform)

yObs <- rbinom(N, size=1, prob=inv_logit(zTransform))

badModel <- glm(yObs~x1, family=binomial(link="logit"))
summary(badModel)

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -0.1404     0.2327  -0.604    0.546    
x1           -1.3417     0.3041  -4.412 1.02e-05 ***

Mas se especificarmos corretamente o modelo, obteremos nossos coeficientes de volta, mas com algum erro de estimativa.

goodModel <- glm(yObs~x1+x2, family=binomial(link="logit"))
summary(goodModel)

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  -9.9512     2.9331  -3.393 0.000692 ***
x1           -4.8657     1.1918  -4.083 4.45e-05 ***
x2            0.9970     0.2948   3.382 0.000720 ***

Em outras palavras, em um modelo de regressão logística com um ajuste perfeito (ou seja, todas as variáveis relevantes estão incluídas), o termo de interceptação deve ser zero, certo?

Por que isso seria o caso? Suponha que você esteja realizando uma regressão logística e que não tenha covariáveis - por exemplo, seu experimento está rolando um dado e a cada 6 é um "sucesso" e todos os outros resultados são um fracasso (talvez você esteja fazendo garantia de qualidade por um cassino). Se assumirmos que os dados são justos, você estimaria o coeficiente com algum valor diferente de zero, puramente porque há resultados mais desfavoráveis do que resultados favoráveis em seus dados.

É importante entender que você fez duas perguntas diferentes em sua postagem. A primeira pergunta se a interceptação captura efeitos não modelados (isso não acontece! Todas as estimativas de coeficiente estão erradas quando o modelo é especificado incorretamente!) A segunda pergunta pergunta se a interceptação deve ser zero - e a resposta também é não, porque o termo de interceptação é fixado pela razão entre "sucessos" e "falhas".

— Sycorax diz restabelecer Monica
fonte

Obrigado, sua resposta realmente ajudou muito! Então, basicamente, os efeitos não observados são capturados apenas na diferença entre o valor máximo de lnLikelihood (= 0) e a função lnLikelihood que leva em consideração todas as variáveis independentes, certo?

— Student_of_life

2

Eu não entendo sua pergunta. A especificação correta do modelo inclui todos os recursos relevantes - o que é um dilema, porque o mundo é complicado e a contabilização de todos os efeitos é geralmente impossível. Efeitos omitidos podem significar que as estimativas do coeficiente são bastante incorretas!

— Sycorax diz Reinstate Monica

Como você disse, como um modelo raramente pode capturar todos os efeitos, sempre haverá efeitos omitidos. Eu queria saber se pode ser encontrado 'um indicador' dentro de um modelo de regressão logística binária padrão que indica o tamanho desses efeitos omitidos.

— Student_of_life

Não que eu saiba: você não pode ajustar dados que não possui.

— Sycorax diz Restabelecer Monica

1

@student_of_life: Qualquer modelo de comparação de métricas ajustado a um ajuste perfeito - aquele de um modelo que prevê uma probabilidade de sucesso de 1 para todos os "sucessos" e 0 para todas as "falhas" - pode ser usado para indicar o tamanho dos efeitos omitidos em um determinista universo.

— Scortchi - Reinstate Monica

2

Não tenho certeza se algum modelo, mesmo linear, com um ajuste "perfeito" implica que o termo de interceptação seja 0. Ele ajuda nesses casos a pensar em uma regressão linear simples. A maneira como entendo a interceptação é que ela fixa algum valor razoável para a variável y. Ele mostra apenas o valor que a variável y leva, mesmo que todos os x sejam 0. Deve haver uma boa razão para pensar por que isso deve ser 0. Eu não acho que isso tenha algo a ver com os não observáveis. Em um modelo linear, permite a) um melhor ajuste eb) garante que os resíduos somam 1.

— ChinG
fonte

1

em um modelo de regressão logística com um ajuste perfeito (ou seja, todas as variáveis relevantes estão incluídas), o termo de interceptação deve ser zero, certo?

Não. A interceptação captura a parte constante do perigo.

— Aksakal
fonte

1

A interceptação permite que o hiperplano linear se mova "lateralmente". Por exemplo, em uma dimensão, move o sigmóide para a esquerda e para a direita, alterando efetivamente o local em que a regressão ativa.

— Felipe Gerard
fonte