Eu tenho dados de coleta de longo prazo e gostaria de testar se o número de animais coletados é influenciado pelos efeitos climáticos. Meu modelo se parece abaixo:
glmer(SumOfCatch ~ I(pc.act.1^2) +I(pc.act.2^2) + I(pc.may.1^2) + I(pc.may.2^2) +
SampSize + as.factor(samp.prog) + (1|year/month),
control=glmerControl(optimizer="bobyqa", optCtrl=list(maxfun=1e9,npt=5)),
family="poisson", data=a2)
Explicação das variáveis utilizadas:
- SumOfCatch: número de animais coletados
- pc.act.1, pc.act.2: eixos de um componente principal que representam as condições climáticas durante a amostragem
- pc.may.1, pc.may.2: eixos de um PC representando as condições meteorológicas em maio
- SampSize: número de armadilhas de interceptação ou coleta de transectos de comprimentos padrão
- samp.prog: método de amostragem
- ano: ano da amostragem (de 1993 a 2002)
- mês: mês da amostragem (de agosto a novembro)
Os resíduos do modelo ajustado mostram considerável heterogeneidade (heterocedasticidade?) Quando plotados em relação aos valores ajustados (ver Fig.1):
Minha principal pergunta é: esse é um problema que torna questionável a confiabilidade do meu modelo? Nesse caso, o que posso fazer para resolvê-lo?
Até agora, tentei o seguinte:
- controle de sobredispersão, definindo efeitos aleatórios no nível de observação, ou seja, usando um ID exclusivo para cada observação e aplicando essa variável de ID como efeito aleatório; embora meus dados mostrem uma excessiva dispersão considerável, isso não ajudou, pois os resíduos se tornaram ainda mais feios (veja a Fig. 2)
- Eu ajustei modelos sem efeitos aleatórios, com quase-Poisson glm e glm.nb; também produziu parcelas residuais vs. ajustadas similares ao modelo original
Até onde eu sei, pode haver maneiras de estimar erros padrão consistentes em heterocedasticidade, mas não consegui encontrar nenhum método para os GLMMs de Poisson (ou qualquer outro tipo de) em R.
Em resposta a @FlorianHartig: o número de observações no meu conjunto de dados é N = 554, acho que isso é uma obs. número para esse modelo, mas, é claro, quanto mais, melhor. Postei duas figuras, a primeira delas é a plotagem residual em escala DHARMa (sugerida por Florian) do modelo principal.
A segunda figura é de um segundo modelo, no qual a única diferença é que ele contém o efeito aleatório no nível de observação (o primeiro não).
ATUALIZAR
Figura da relação entre uma variável climática (como preditor, ou seja, eixo x) e sucesso da amostragem (resposta):
ATUALIZAÇÃO II.
Figuras mostrando valores preditivos vs. resíduos: