Interpretando gráficos residuais de diagnóstico para modelos glm?

33

Estou procurando orientações sobre como interpretar gráficos residuais de modelos de glm. Especialmente modelos poisson, binomial negativo e binomial. O que podemos esperar desses gráficos quando os modelos estão "corretos"? (por exemplo, esperamos que a variação cresça à medida que o valor previsto aumenta, pois ao lidar com um modelo de Poisson)

Eu sei que as respostas dependem dos modelos. Quaisquer referências (ou pontos gerais a serem considerados) serão úteis / apreciadas.

generalized-linear-model diagnostic residuals

— Tal Galili
fonte

16

Eu acho que essa é uma das partes mais desafiadoras ao fazer a análise de regressão. Eu também luto com a maioria das interpretações (em particular os diagnósticos binomiais são loucos!).

Eu apenas tropecei neste post http://www.r-bloggers.com/model-validation-interpreting-residual-plots/, que também vinculou http://statmaster.sdu.dk/courses/st111/module04/index.html # SECTION00020000000000000000

o que me ajuda mais é plotar os resíduos versus todos os parâmetros preditivos incluídos E não incluídos no modelo. Isso significa também aqueles que foram descartados de antemão por razões de multicolinearidade. Para esses boxplots, os gráficos de dispersão condicionais e de dispersão normais são ótimos. isso ajuda a detectar possíveis erros

Em "Forest Analytics with R" (UseR Series), há algumas boas explicações sobre como interpretar resíduos para modelos de efeitos mistos (e também glms). Boa leitura! http://www.springer.com/statistics/life+sciences,+medicine+%26+health/book/978-1-4419-7761-8

Algum dia atrás, pensei em um site que poderia coletar padrões residuais nos quais os usuários podem votar como "ok" e "não ok". mas nunca encontrei esse site;)

— Jens
fonte

8

Eu sugeriria os métodos descritos em:

 Buja, A., Cook, D. Hofmann, H., Lawrence, M. Lee, E.-K., Swayne,
 D.F and Wickham, H. (2009) Statistical Inference for exploratory
 data analysis and model diagnostics Phil. Trans. R. Soc. A 2009
 367, 4361-4383 doi: 10.1098/rsta.2009.0120

Existem algumas idéias diferentes, mas a maioria se resume à simulação de dados, onde você sabe qual é o verdadeiro relacionamento e esse relacionamento é baseado em sua análise dos dados reais. Em seguida, você compara os diagnósticos dos seus dados reais aos diagnósticos dos conjuntos de dados simulados. A vis.testfunção no pacote TeachingDemos para R implementa uma variação de 1 das sugestões no artigo. Leia o artigo inteiro (não apenas minha breve síntese) para entender melhor.

— Greg Snow
fonte

Eu acho que é uma boa sugestão para ver padrões que se desviam aleatoriamente em dispersões ou outras parcelas, mas esse não é o único objetivo ao visualizar resíduos. Frequentemente, estamos interessados em desvios particulares do aleatório (por exemplo, hereerecedcedasticidade, não linearidade mal especificada no modelo, variáveis omitidas, valores extremos ou valores altos de alavancagem, etc.). Comparações com dados gerados aleatoriamente não ajudam a identificar por que os resíduos não são aleatórios nem o remédio.

— Andy W

@ AndyW, acho que estamos interpretando a pergunta original de maneira diferente. Minha resposta inicia o pesquisador informando se há algo mais que eles precisam procurar ou se o gráfico residual é razoável. O que fazer se não parecer razoável é o próximo passo e além da minha resposta (embora algumas suposições adicionais possam ser comparadas usando um novo conjunto de simulações).

— Greg Snow

5

Essa pergunta é bastante antiga, mas achei que seria útil acrescentar que, desde recentemente, você pode usar o pacote DHARMa R para transformar os resíduos de qualquer GL (M) M em um espaço padronizado. Feito isso, é possível avaliar / testar visualmente problemas residuais, como desvios da distribuição, dependência residual de um preditor, heterocedasticidade ou autocorrelação da maneira normal. Veja a vinheta do pacote para obter exemplos detalhados, além de outras perguntas sobre o CV aqui e aqui .

— Florian Hartig
fonte