Antecedentes: Sou bioestatístico atualmente lutando com um conjunto de dados de taxas de expressão celular. O estudo expôs uma série de células, coletadas em grupos de vários doadores, a certos peptídeos. As células expressam certos biomarcadores em resposta ou não. As taxas de resposta são então registradas para cada grupo de doadores. As taxas de resposta (expressas em porcentagens) são o resultado de interesse e a exposição a peptídeos é o preditor.
Observe que as observações são agrupadas nos doadores.
Como só tenho os dados resumidos, estou tratando as taxas de resposta doadas como dados contínuos (pelo menos por enquanto).
A complicação decorre do fato de eu ter muitos zeros nos meus dados. Muitos para serem ignorados. Estou pensando em um modelo gama inflado a zero para lidar com o fato de que inclinei dados contínuos juntamente com uma superabundância de zeros. Também considerei o modelo Tobit, mas isso parece inferior, pois supõe a censura em um limite inferior, em oposição aos zeros genuínos (econometristas podem dizer que a distinção é discutível).
Pergunta: De um modo geral, quando é apropriado usar um modelo gama inflado a zero? Ou seja, quais são as suposições? E como se interpreta suas inferências? Ficaria muito grato pelos links para os artigos que discutem isso, se houver.
Encontrei um link no SAS-L no qual Dale McLerran fornece código NLMIXED para um modelo gama inflado a zero, portanto parece possível. No entanto, eu odiaria atacar cegamente.