Resumo: Existe alguma teoria estatística para apoiar o uso da distribuição (com graus de liberdade baseados no desvio residual) para testes de coeficientes de regressão logística, em vez da distribuição normal padrão?
Algum tempo atrás, descobri que, ao ajustar um modelo de regressão logística no SAS PROC GLIMMIX, nas configurações padrão, os coeficientes de regressão logística são testados usando uma distribuição em vez da distribuição normal padrão. Ou seja, o GLIMMIX relata uma coluna com a proporção (que chamarei de no restante desta pergunta ), mas também reporta uma coluna "graus de liberdade", bem como um valor- baseado na suposição de uma distribuição paracom graus de liberdade baseados no desvio residual - isto é, graus de liberdade = número total de observações menos número de parâmetros. No final desta pergunta, forneço algum código e saída no R e SAS para demonstração e comparação.
Isso me confundiu, já que eu pensava que, para modelos lineares generalizados, como a regressão logística, não havia teoria estatística para apoiar o uso da distribuição neste caso. Em vez disso, pensei que sabíamos sobre esse caso:
- é "aproximadamente" normalmente distribuído;
- essa aproximação pode ser ruim para amostras pequenas;
- no entanto, não se pode supor que tenha uma distribuição como podemos assumir no caso de regressão normal.
Agora, em um nível intuitivo, parece-me razoável que, se é aproximadamente normalmente distribuído, possa de fato ter alguma distribuição que seja basicamente " semelhante a ", mesmo que não seja exatamente . Portanto, o uso da distribuição aqui não parece louco. Mas o que eu quero saber é o seguinte:
- Existe de fato a teoria estatística mostrando que realmente segue uma distribuição no caso de regressão logística e / ou outros modelos lineares generalizados?
- Se não existe essa teoria, existem pelo menos trabalhos por aí mostrando que assumir uma distribuição dessa maneira funciona tão bem quanto, ou talvez até melhor do que, assumir uma distribuição normal?
De maneira mais geral, existe algum suporte real para o que o GLIMMIX está fazendo aqui, além da intuição de que provavelmente é basicamente sensato?
Código R:
summary(glm(y ~ x, data=dat, family=binomial))
Saída R:
Call:
glm(formula = y ~ x, family = binomial, data = dat)
Deviance Residuals:
Min 1Q Median 3Q Max
-1.352 -1.243 1.025 1.068 1.156
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 0.22800 0.06725 3.390 0.000698 ***
x -0.17966 0.10841 -1.657 0.097462 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 1235.6 on 899 degrees of freedom
Residual deviance: 1232.9 on 898 degrees of freedom
AIC: 1236.9
Number of Fisher Scoring iterations: 4
Código SAS:
proc glimmix data=logitDat;
model y(event='1') = x / dist=binomial solution;
run;
Saída SAS (editada / abreviada):
The GLIMMIX Procedure
Fit Statistics
-2 Log Likelihood 1232.87
AIC (smaller is better) 1236.87
AICC (smaller is better) 1236.88
BIC (smaller is better) 1246.47
CAIC (smaller is better) 1248.47
HQIC (smaller is better) 1240.54
Pearson Chi-Square 900.08
Pearson Chi-Square / DF 1.00
Parameter Estimates
Standard
Effect Estimate Error DF t Value Pr > |t|
Intercept 0.2280 0.06725 898 3.39 0.0007
x -0.1797 0.1084 898 -1.66 0.0978
Na verdade, notei pela primeira vez isso sobremodelos de regressão logística deefeitos mistosno PROC GLIMMIX, e depois descobri que o GLIMMIX também faz isso com regressão logística "vanilla".
PROC LOGISTIC