Uma colega de trabalho está analisando alguns dados biológicos para sua dissertação com alguma heteroscedasticidade desagradável (figura abaixo). Ela está analisando com um modelo misto, mas ainda está tendo problemas com os resíduos.
A transformação de log das variáveis de resposta limpa as coisas e, com base no feedback dessa pergunta, essa parece ser uma abordagem apropriada. Originalmente, no entanto, pensávamos que havia problemas no uso de variáveis transformadas com modelos mistos. Acontece que tínhamos interpretado mal uma declaração no SAS para modelos mistos de Littell & Milliken (2006), que estava apontando por que é inadequado transformar dados de contagem e analisá-los com um modelo linear linear normal (a cotação completa está abaixo) .
Uma abordagem que também melhorou os resíduos foi usar um modelo linear generalizado com uma distribuição de Poisson. Eu li que a distribuição Poisson pode ser usada para modelar dados contínuos (por exemplo, conforme discutido neste post ), e os pacotes de estatísticas permitem isso, mas não entendo o que está acontecendo quando o modelo é adequado.
Para entender como os cálculos subjacentes estão sendo feitos, minhas perguntas são: Quando você ajusta uma distribuição Poisson a dados contínuos, 1) os dados são arredondados para o número inteiro mais próximo 2) isso resulta na perda de informações e 3) Quando, se for o caso, é apropriado usar um modelo de Poisson para dados contínuos?
Littel & Milliken 2006, pág. 529 "transformar os dados [count] pode ser contraproducente. Por exemplo, uma transformação pode distorcer a distribuição dos efeitos aleatórios do modelo ou a linearidade do modelo. Mais importante, transformar os dados ainda deixa em aberto a possibilidade de contagens previstas negativas. Consequentemente, a inferência de um modelo misto usando dados transformados é altamente suspeita ".