Eu gostaria de empregar os dados de contagem como covariáveis ao ajustar um modelo de regressão logística. Minha pergunta é:
- Eu viole alguma suposição dos modelos logísticos (e, mais geralmente, do linear generalizado), empregando variáveis inteiras não negativas de contagem como variáveis independentes?
Eu encontrei muitas referências na literatura sobre hot para usar dados de contagem como resultado, mas não como covariáveis; veja, por exemplo, o artigo muito claro: "NE Breslow (1996) Modelos Lineares Generalizados: Verificando Pressupostos e Fortalecendo Conclusões, Congresso Nacional de Sociologia Italiana de Biometria, Cortona, junho de 1995", disponível em http://biostat.georgiahealth.edu/~dryu /course/stat9110spring12/land16_ref.pdf .
Em termos gerais, parece que as suposições da glm podem ser expressas da seguinte forma:
- resíduos residuais;
- a função de link deve representar corretamente o relacionamento entre variáveis dependentes e independentes;
- ausência de outliers
Todo mundo sabe se existe algum outro pressuposto / problema técnico que possa sugerir o uso de outro tipo de modelo para lidar com covariáveis de contagem?
Por fim, observe que meus dados contêm relativamente poucas amostras (<100) e que os intervalos de variáveis de contagem podem variar entre 3-4 ordens de magnitude (ou seja, algumas variáveis têm valor no intervalo de 0 a 10, enquanto outras variáveis podem ter valores dentro de 0-10000).
Um exemplo simples de código R é o seguinte:
\###########################################################
\#generating simulated data
var1 <- sample(0:10, 100, replace = TRUE);
var2 <- sample(0:1000, 100, replace = TRUE);
var3 <- sample(0:100000, 100, replace = TRUE);
outcome <- sample(0:1, 100, replace = TRUE);
dataset <- data.frame(outcome, var1, var2, var3);
\#fitting the model
model <- glm(outcome ~ ., family=binomial, data = dataset)
\#inspecting the model
print(model)
\###########################################################