Hoje, tenho uma pergunta sobre regressão binomial / logística, baseada em uma análise que um grupo do meu departamento fez e estava buscando comentários. Eu inventei o exemplo abaixo para proteger o anonimato deles, mas eles estavam ansiosos para ver as respostas.
Primeiramente, a análise começou com uma resposta binomial simples de 1 ou 0 (por exemplo, sobrevivência de uma estação de reprodução para a seguinte) e o objetivo era modelar essa resposta em função de algumas covariáveis.
No entanto, várias medidas de algumas covariáveis estavam disponíveis para alguns indivíduos, mas não para outros. Por exemplo, imagine que a variável x é uma medida da taxa metabólica durante o trabalho de parto e os indivíduos variam no número de filhos que eles têm (por exemplo, a variável x foi medida 3 vezes para o indivíduo A, mas apenas uma vez para o indivíduo B). Esse desequilíbrio não se deve à estratégia de amostragem dos pesquisadores em si, mas reflete as características da população da qual eles estavam amostrando; alguns indivíduos têm mais filhos do que outros.
Devo também salientar que a medição da resposta binomial 0 \ 1 entre eventos de trabalho não foi possível porque o intervalo entre esses eventos foi bastante curto. Mais uma vez, imagine que a espécie em questão tenha uma estação de reprodução curta, mas pode dar à luz mais de uma prole durante a estação.
Os pesquisadores optaram por executar um modelo no qual usavam a média da variável x como uma covariável e o número de filhos que um indivíduo deu à luz como outra covariável.
Agora, eu não estava interessado nessa abordagem por várias razões
1) Tomar a média de x significa perder informações na variabilidade intra-individual de x.
2) A média em si é uma estatística; portanto, ao colocá-la no modelo, acabamos fazendo estatísticas sobre estatísticas.
3) O número de filhos de um indivíduo está no modelo, mas também é usado para calcular a média da variável x, que eu acho que poderia causar problemas.
Então, minha pergunta é como as pessoas modelariam esse tipo de dados?
No momento, eu provavelmente executaria modelos separados para indivíduos que tiveram um filho, depois para indivíduos que tiveram dois filhos etc. Além disso, eu não usaria a média da variável xe apenas os dados brutos de cada nascimento, mas estou não convencido de que isso é muito melhor também.
Obrigado pelo seu tempo
(PS: peço desculpas por ser uma pergunta bastante longa e espero que o exemplo seja claro)