teste de coeficientes de regressão logística usando

12

Resumo: Existe alguma teoria estatística para apoiar o uso da distribuição (com graus de liberdade baseados no desvio residual) para testes de coeficientes de regressão logística, em vez da distribuição normal padrão? $t$

Algum tempo atrás, descobri que, ao ajustar um modelo de regressão logística no SAS PROC GLIMMIX, nas configurações padrão, os coeficientes de regressão logística são testados usando uma distribuição em vez da distribuição normal padrão. Ou seja, o GLIMMIX relata uma coluna com a proporção (que chamarei de no restante desta pergunta ), mas também reporta uma coluna "graus de liberdade", bem como um valor- baseado na suposição de uma distribuição para $t$ $^1$ $\hat{\beta}_1/\sqrt{\text{var}(\hat{\beta}_1)}$ $z$ $p$ $t$ $z$ com graus de liberdade baseados no desvio residual - isto é, graus de liberdade = número total de observações menos número de parâmetros. No final desta pergunta, forneço algum código e saída no R e SAS para demonstração e comparação. $^2$

Isso me confundiu, já que eu pensava que, para modelos lineares generalizados, como a regressão logística, não havia teoria estatística para apoiar o uso da distribuição neste caso. Em vez disso, pensei que sabíamos sobre esse caso: $t$

$z$ é "aproximadamente" normalmente distribuído;
essa aproximação pode ser ruim para amostras pequenas;
no entanto, não se pode supor que tenha uma distribuição como podemos assumir no caso de regressão normal. $z$ $t$

Agora, em um nível intuitivo, parece-me razoável que, se é aproximadamente normalmente distribuído, possa de fato ter alguma distribuição que seja basicamente " semelhante a ", mesmo que não seja exatamente . Portanto, o uso da distribuição aqui não parece louco. Mas o que eu quero saber é o seguinte: $z$ $t$ $t$ $t$

Existe de fato a teoria estatística mostrando que realmente segue uma distribuição no caso de regressão logística e / ou outros modelos lineares generalizados? $z$ $t$
Se não existe essa teoria, existem pelo menos trabalhos por aí mostrando que assumir uma distribuição dessa maneira funciona tão bem quanto, ou talvez até melhor do que, assumir uma distribuição normal? $t$

De maneira mais geral, existe algum suporte real para o que o GLIMMIX está fazendo aqui, além da intuição de que provavelmente é basicamente sensato?

Código R:

summary(glm(y ~ x, data=dat, family=binomial))

Saída R:

Call:
glm(formula = y ~ x, family = binomial, data = dat)

Deviance Residuals: 
   Min      1Q  Median      3Q     Max  
-1.352  -1.243   1.025   1.068   1.156  

Coefficients:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  0.22800    0.06725   3.390 0.000698 ***
x           -0.17966    0.10841  -1.657 0.097462 .  
---
  Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 1235.6  on 899  degrees of freedom
Residual deviance: 1232.9  on 898  degrees of freedom
AIC: 1236.9

Number of Fisher Scoring iterations: 4

Código SAS:

proc glimmix data=logitDat;
    model y(event='1') = x / dist=binomial solution;
run;

Saída SAS (editada / abreviada):

The GLIMMIX Procedure

               Fit Statistics

-2 Log Likelihood            1232.87
AIC  (smaller is better)     1236.87
AICC (smaller is better)     1236.88
BIC  (smaller is better)     1246.47
CAIC (smaller is better)     1248.47
HQIC (smaller is better)     1240.54
Pearson Chi-Square            900.08
Pearson Chi-Square / DF         1.00


                       Parameter Estimates

                         Standard
Effect       Estimate       Error       DF    t Value    Pr > |t|

Intercept      0.2280     0.06725      898       3.39      0.0007
x             -0.1797      0.1084      898      -1.66      0.0978

Na verdade, notei pela primeira vez isso sobremodelos de regressão logística deefeitos mistosno PROC GLIMMIX, e depois descobri que o GLIMMIX também faz isso com regressão logística "vanilla". $^1$

$^2$ $n$

— Jake Westfall
fonte

PROC LOGISTIC

z

$z$

1

O SPSS parece testar modelos logísticos de efeitos mistos da mesma maneira :(

— Richard Border

6

Existe de fato a teoria estatística mostrando que z realmente segue a distribuição no caso de regressão logística e / ou outros modelos lineares generalizados?

Tanto quanto sei, não existe tal teoria. Eu vejo regularmente argumentos ondulantes e, ocasionalmente, experimentos de simulação para apoiar essa abordagem para uma família GLM específica ou outra. As simulações são mais convincentes do que os argumentos ondulados.

Se não existe tal teoria, existem pelo menos trabalhos por aí mostrando que assumir a distribuição dessa maneira funciona tão bem quanto, ou talvez até melhor, do que assumir uma distribuição normal?

Não que eu me lembre de ter visto, mas isso não está dizendo muito.

Minhas simulações de amostras pequenas (limitadas) sugerem assumir que uma distribuição t no caso logístico pode ser substancialmente pior do que assumir uma normal:

insira a descrição da imagem aqui

Aqui, por exemplo, estão os resultados (como gráficos de QQ) de 10.000 simulações da estatística Wald para uma regressão logística comum (isto é, efeitos fixos, não misturados) em 15 observações x equidistantes onde os parâmetros populacionais eram ambos zero. A linha vermelha é a linha y = x. Como você vê, em cada caso, o normal é uma aproximação bastante boa em um bom intervalo no meio - até os percentis 5 e 95 (1,6-1,7 s) e depois fora da distribuição real da estatística de teste. cauda substancialmente mais leve que o normal.

Portanto, para o caso logístico, eu diria que qualquer argumento para usar o t - em vez do z - parece improvável de ter sucesso nessa base, uma vez que simulações como essas tendem a sugerir que os resultados tendem a se basear na cauda mais clara lado do normal, ao invés do mais pesado de cauda.

[No entanto, eu recomendo que você não confie nas minhas simulações mais do que como um aviso para tomar cuidado - tente algumas de sua preferência, talvez por circunstâncias mais representativas de suas próprias situações típicas de seus IVs e modelos (é claro, você precisa simular o caso em que algum nulo é verdadeiro para ver qual distribuição usar sob o nulo). Eu ficaria interessado em saber como eles saem para você.]

— Glen_b -Reinstate Monica
fonte

1

t

$t$

4

Aqui estão algumas simulações adicionais apenas para expandir um pouco o que Glen_b já apresentou.

$[-1,1]$ $N=10,20,40,80$ $p=0.5,0.731,0.881,0.952$

$z$ $t$ $df=N-2$ $z=0$ $p$ $=1$ QQsim

$p$ $t$ $p$ $p$ HistSim

$t$

— Jake Westfall
fonte

3

Bom trabalho para vocês dois. Bill Gould estudou isso em http://www.citeulike.org/user/harrelfe/article/13264166, fazendo as mesmas conclusões, em um modelo logístico binário de efeitos fixos padrão.

$t$

— Frank Harrell
fonte