Pressupostos de modelos lineares generalizados

Na página 232 de "Um companheiro R para regressão aplicada", Fox e Weisberg observam

Somente a família gaussiana tem variação constante e, em todos os outros GLMs, a variação condicional de y em depende de $\bf{x}$ $\mu(x)$

Anteriormente, eles observam que a variação condicional do Poisson é e a do binômio é . $\mu$ $\frac{\mu(1-\mu)}{N}$

Para os gaussianos, essa é uma suposição familiar e frequentemente verificada (homoscedasticidade). Da mesma forma, muitas vezes vejo a variação condicional do Poisson discutida como uma suposição da regressão de Poisson, juntamente com remédios para casos em que ele é violado (por exemplo, binomial negativo, inflado a zero, etc.). No entanto, nunca vejo a variação condicional do binômio discutida como uma suposição na regressão logística. Um pouco de pesquisador no Google não encontrou nenhuma menção a isso.

O que estou perdendo aqui?

EDITAR subsequente ao comentário de @whuber:

Como sugerido, estou procurando por Hosmer & Lemeshow. É interessante e acho que mostra por que eu (e talvez outros) estou confuso. Por exemplo, a palavra "suposição" não está no índice do livro. Além disso, temos isso (p. 175)

Na regressão logística, temos que confiar principalmente na avaliação visual, pois a distribuição dos diagnósticos sob a hipótese de que o modelo se encaixa é conhecida apenas em determinadas configurações limitadas

Eles mostram algumas parcelas, mas concentram-se em parcelas dispersas de vários resíduos versus a probabilidade estimada. Essas plotagens (mesmo para um bom modelo, não possuem o padrão "desajeitado" característico de plotagens semelhantes na regressão OLS e, portanto, são mais difíceis de julgar. Além disso, elas não mostram nada semelhante a plotagens quantílicas.

Em R, plot.lm oferece um bom conjunto padrão de plotagens para avaliar modelos; Não conheço um equivalente para regressão logística, embora possa estar em algum pacote. Isso pode ocorrer porque gráficos diferentes seriam necessários para cada tipo de modelo. O SAS oferece alguns gráficos no PROC LOGISTIC.

Isso certamente parece ser uma área de potencial confusão!

logistic generalized-linear-model

— Peter Flom - Restabelece Monica
fonte

Se você possui uma cópia de Hosmer & Lemeshow, Regressão logística aplicada, consulte o capítulo "Avaliando o ajuste do modelo": a variação condicional do Binomial aparece em todos os lugares e é explicitamente explicada em quase todos os testes GoF.

— whuber

Penso que a suposição binomial é imposta pelo experimento real: as respostas são independentes de 0/1; portanto, a distribuição binomial é a única que modela o experimento real. Pelo contrário, a suposição da distribuição de Poisson para contagens não é realista.

— Stéphane Laurent

Obrigado @whuber. Eu tenho esse livro e vou dar uma olhada

— Peter Flom - Reinstate Monica

... mas a função de ligação não é natural e que determina a variância condicional ... então meu comentário acima não era muito sensata

— Stéphane Laurent

Respostas:

Essas plotagens (mesmo para um bom modelo, não possuem o padrão "desajeitado" característico de plotagens semelhantes na regressão OLS e, portanto, são mais difíceis de julgar. Além disso, elas não mostram nada semelhante a plotagens quantílicas.

O pacote DHARMa R resolve esse problema simulando a partir do modelo ajustado para transformar os resíduos de qualquer GL (M) M em um espaço padronizado. Uma vez feito isso, todos os métodos regulares para avaliar visual e formalmente os problemas residuais (por exemplo, gráficos qq, superdispersão, heterocedasticidade, autocorrelação) podem ser aplicados. Veja a vinheta do pacote para obter exemplos detalhados.

Em relação ao comentário de @Otto_K: se a sobredispersão homogênea é o único problema, provavelmente é mais simples usar um efeito aleatório em nível de observação, que pode ser implementado com um GLMM binomial padrão. No entanto, acho que o @PeterFlom também estava preocupado com a heterocedasticidade, ou seja, uma alteração no parâmetro de dispersão com algumas previsões de preditor ou modelo. Isso não será captado / corrigido pelas verificações / correções de super-dispersão padrão, mas você pode vê-lo nos gráficos residuais do DHARMa. Para corrigi-lo, modelar a dispersão em função de outra coisa no JAGS ou STAN é provavelmente a única maneira no momento.

— Florian Hartig
fonte

O tópico que você explica é chamado frequentemente de super-dispersão . No meu trabalho, vi uma possível solução para esse tópico:

Utilizando uma abordagem bayesiana e estimando uma distribuição beta-binomial. Isso tem a grande vantagem de outras distribuições (induzidas por outros anteriores), em ter uma solução de forma fechada.

Referências:

Distribuição beta-binomial
Notas dos estimadores de Peter Hoff Bayes ( pdf )

— Otto_K
fonte