Essa resposta não se baseia no meu conhecimento, mas cita o que Bolker et al. (2009) escreveram em um artigo influente na revista Trends in Ecology and Evolution . Como o artigo não é de acesso aberto (embora a pesquisa no Google Scholar possa ser bem-sucedida, pensei em citar trechos importantes que podem ser úteis para abordar partes das perguntas. Então, novamente, não foi o que descobri, mas acho que representa a melhor informação condensada sobre GLMMs (incluindo diagnósticos) por aí, em um estilo de escrita muito direto e fácil de entender.Se, por qualquer meio, essa resposta não for adequada por qualquer motivo, eu simplesmente a excluirei. útil no que diz respeito a perguntas relacionadas ao diagnóstico são destacadas emnegrito .
Page 127:
Pesquisadores confrontados com dados não-normais geralmente tentam atalhos, como transformar dados para alcançar a normalidade e homogeneidade de variância, usando testes não paramétricos ou contando com a robustez da ANOVA clássica à não-normalidade para projetos balanceados [15]. Eles podem ignorar completamente os efeitos aleatórios (comprometendo assim a pseudo-replicação) ou tratá-los como fatores fixos [16]. No entanto, esses atalhos podem falhar (por exemplo, dados de contagem com muitos valores zero não podem ser tornados normais por transformação). Mesmo quando são bem-sucedidos, podem violar suposições estatísticas (mesmo testes não paramétricos fazem suposições, por exemplo, de homogeneidade de variância entre grupos) ou limitar o escopo de inferência (não se pode extrapolar estimativas de efeitos fixos para novos grupos). Em vez de colocar seus dados em estruturas estatísticas clássicas, os pesquisadores devem usar abordagens estatísticas que correspondam aos seus dados. Modelos mistos lineares generalizados (GLMMs) combinam as propriedades de duas estruturas estatísticas amplamente usadas em ecologia e evolução, modelos lineares mistos (que incorporam efeitos aleatórios) e modelos lineares generalizados (que manipulam dados não-normais usando funções de link e família exponencial [por exemplo, distribuição normal, Poisson ou binomial]). Os GLMMs são a melhor ferramenta para analisar dados não normais que envolvem efeitos aleatórios: tudo o que se deve fazer, em princípio, é especificar uma distribuição, função de link e estrutura dos efeitos aleatórios. modelos mistos lineares (que incorporam efeitos aleatórios) e modelos lineares generalizados (que lidam com dados não-normais usando funções de link e distribuições de família exponencial [por exemplo, normal, Poisson ou binomial]). Os GLMMs são a melhor ferramenta para analisar dados não normais que envolvem efeitos aleatórios: tudo o que se deve fazer, em princípio, é especificar uma distribuição, função de link e estrutura dos efeitos aleatórios. modelos mistos lineares (que incorporam efeitos aleatórios) e modelos lineares generalizados (que lidam com dados não-normais usando funções de link e distribuições de família exponencial [por exemplo, normal, Poisson ou binomial]). Os GLMMs são a melhor ferramenta para analisar dados não-normais que envolvem efeitos aleatórios: tudo o que se deve fazer, em princípio, é especificar uma distribuição, função de link e estrutura dos efeitos aleatórios.
Página 129, Caixa 1:
Os resíduos indicaram super-dispersão , por isso, reajustamos os dados com um modelo quase-Poisson. Apesar do grande parâmetro de escala estimado (10.8), os gráficos exploratórios não encontraram evidências de valores discrepantes no nível de indivíduos, genótipos ou populações. Utilizamos quase-AIC (QAIC), usando um grau de liberdade para efeitos aleatórios [49], para efeitos aleatórios e, em seguida, para seleção de modelos de efeito fixo.
Page 133, Caixa 4:
Aqui, descrevemos uma estrutura geral para a construção de um modelo completo (mais complexo), o primeiro passo na análise do GLMM. Após esse processo, é possível avaliar parâmetros e comparar submodelos, conforme descrito no texto principal e na Figura 1.
Especifique efeitos fixos (tratamentos ou covariáveis) e aleatórios (blocos experimentais, espaciais ou temporais, indivíduos, etc.). Inclua apenas interações importantes. Restrinja o modelo a priori a um nível viável de complexidade, com base em regras práticas (> 5–6 níveis de efeito aleatório por efeito aleatório e> 10-20 amostras por nível de tratamento ou unidade experimental) e conhecimento de tamanhos de amostra adequados obtidos estudos anteriores [64,65].
Escolha uma função de distribuição e link de erro (por exemplo, distribuição Poisson e link de log para dados de contagem, distribuição binomial e link de logit para dados de proporção).
Verificação gráfica : as variações de dados (transformadas pela função de link) são homogêneas entre as categorias? As respostas dos dados transformados são lineares em relação aos preditores contínuos? Existem indivíduos ou grupos discrepantes? As distribuições dentro dos grupos correspondem à distribuição assumida?
Ajuste GLMs de efeito fixo no conjunto de dados completo (em pool) e dentro de cada nível dos fatores aleatórios [28,50]. Os parâmetros estimados devem ser distribuídos aproximadamente normalmente entre os grupos (os parâmetros no nível do grupo podem ter grandes incertezas, especialmente para grupos com amostras pequenas). Ajuste o modelo conforme necessário (por exemplo, altere a função do link ou adicione covariáveis).
Coloque o GLMM completo. Memória insuficiente do computador ou muito lenta: reduza a complexidade do modelo. Se a estimativa tiver êxito em um subconjunto dos dados, tente um algoritmo de estimativa mais eficiente (por exemplo, PQL, se apropriado). Falha na convergência (avisos ou erros): reduza a complexidade do modelo ou altere as configurações de otimização (verifique se as respostas resultantes fazem sentido). Tente outros algoritmos de estimativa. Componentes de variação zero ou singularidade (avisos ou erros): verifique se o modelo está definido e identificável adequadamente (ou seja, todos os componentes podem ser estimados em teoria). Reduza a complexidade do modelo. Adicionar informações ao modelo (covariáveis adicionais ou novos agrupamentos para efeitos aleatórios) pode aliviar problemas, assim como centrar as covariáveis contínuas subtraindo sua média [50]. Se necessário, elimine efeitos aleatórios do modelo completo, descartar (i) termos de interesse biológico menos intrínseco, (ii) termos com variações estimadas muito pequenas e / ou grande incerteza, ou (iii) termos de interação. (Erros de convergência ou variações zero podem indicar dados insuficientes.)
χ2
Os gráficos de resíduos devem ser usados para avaliar a super-dispersão e as variações transformadas devem ser homogêneas entre as categorias. Em nenhum lugar do artigo foi mencionado que os resíduos devam ser normalmente distribuídos.
Penso que a razão pela qual existem declarações contrastantes reflete que os GLMMs (página 127-128) ...
... são surpreendentemente difíceis de usar, mesmo para estatísticos. Embora vários pacotes de software possam lidar com GLMMs (Tabela 1), poucos ecologistas e biólogos evolucionistas estão cientes do leque de opções ou das possíveis armadilhas. Ao revisar artigos sobre ecologia e evolução desde 2005, encontrados pelo Google Scholar, 311 das 537 análises do GLMM (58%) usaram essas ferramentas de forma inadequada de alguma forma (consulte o material suplementar on-line).
E aqui estão alguns exemplos completos usando GLMMs, incluindo diagnósticos.
Sei que essa resposta é mais como um comentário e deve ser tratada como tal. Mas a seção de comentários não me permite adicionar um comentário tão longo. Além disso, como acredito que este artigo é valioso para esta discussão (mas infelizmente por trás de um muro de pagamentos), pensei que seria útil citar passagens importantes aqui.
Trabalhos citados:
[15] - GP Quinn, MJ Keough (2002): Projeto Experimental e Análise de Dados para Biólogos, Cambridge University Press.
[16] - MJ Crawley (2002): Computação Estatística: Uma Introdução à Análise de Dados Utilizando S-PLUS, John Wiley & Sons.
[28] - JC Pinheiro, DM Bates (2000): Modelos de Efeitos Mistos em S e S-PLUS, Springer.
[49] - F. Vaida, S. Blanchard (2005): informações condicionais de Akaike para modelos de efeitos mistos. Biometrika, 92, pp. 351–370.
[50] - A. Gelman, J. Hill (2006): Análise de Dados Utilizando Modelos de Regressão e Multinível / Hierárquicos, Cambridge University Press.
[64] - NJ Gotelli, AM Ellison (2004): Uma cartilha de estatísticas ecológicas, Sinauer Associates.
[65] - FJ Harrell (2001): Estratégias de Modelagem de Regressão, Springer.
[66] - JK Lindsey (1997): Aplicando Modelos Lineares Generalizados, Springer.
[67] - W. Venables, BD Ripley (2002): Estatística Moderna Aplicada com S, Springer.
glm.diag.plots
diz que é para jackknifed residual desvio (Eu suspeito que essa distinção é importante). Além disso, eu acho que você tem dados de contagem ; você pode querer se concentrar nesse fato. Por exemplo, as contagens devem (em algum sentido) ser heterocedásticas. Gráficos de diagnóstico para regressão de contagem devem ser úteis para você (embora não aborde o aspecto dos efeitos mistos).