Pedimos a 60 pessoas que listassem o maior número possível de franquias de restaurantes em Atlanta. A lista geral incluía mais de 70 restaurantes, mas eliminamos os mencionados por menos de 10% das pessoas, deixando-nos 45. Para esses 45, calculamos a proporção de informantes que listaram a franquia e estamos interessados em modelar essa proporção em função do orçamento de publicidade das franquias (transformadas em log) e anos desde que se tornou uma franquia.
Então eu escrevi este código:
model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)
Como previsto, ambas as variáveis exibem efeitos fortes e significativos.
Mas mesmo sabendo que dados proporcionais nunca devem ser modelados com regressão OLS, escrevi posteriormente este código:
model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)
Nesse caso, "orçamento" ainda é um preditor significativo, mas "anos" é relativamente fraco e não significativo.
Preocupa-me que a confiança nas estimativas seja inflada artificialmente pela agregação. O binômio glm essencialmente não vetoriza os dados de modo que o modelo seja baseado em 45 * 55 = 2.475 linhas? Isso é apropriado, uma vez que existem realmente apenas 45 restaurantes e 55 informantes? Isso exigiria modelagem de efeitos mistos?
lm
e glm(...,family=binomial)
, mas uma das mais importantes é que um GLM binomial faz fortes suposições sobre a variação. Se os dados não forem super dispersos, a agregação / desagregação não fará diferença.
family=quasibinomial