Esses dados podem ser agregados em uma proporção para um binômio glm?

Pedimos a 60 pessoas que listassem o maior número possível de franquias de restaurantes em Atlanta. A lista geral incluía mais de 70 restaurantes, mas eliminamos os mencionados por menos de 10% das pessoas, deixando-nos 45. Para esses 45, calculamos a proporção de informantes que listaram a franquia e estamos interessados em modelar essa proporção em função do orçamento de publicidade das franquias (transformadas em log) e anos desde que se tornou uma franquia.

Então eu escrevi este código:

model <- glm ( cbind (listed, 55-listed) ~ log.budget + years, family = binomial, data = list.45)

Como previsto, ambas as variáveis exibem efeitos fortes e significativos.

Mas mesmo sabendo que dados proporcionais nunca devem ser modelados com regressão OLS, escrevi posteriormente este código:

model.lm <- lm ( proportion.55 ~ log.budget + years, data = list.45)

Nesse caso, "orçamento" ainda é um preditor significativo, mas "anos" é relativamente fraco e não significativo.

Preocupa-me que a confiança nas estimativas seja inflada artificialmente pela agregação. O binômio glm essencialmente não vetoriza os dados de modo que o modelo seja baseado em 45 * 55 = 2.475 linhas? Isso é apropriado, uma vez que existem realmente apenas 45 restaurantes e 55 informantes? Isso exigiria modelagem de efeitos mistos?

r generalized-linear-model

— Jeremy _
fonte

dica: veja o que acontece comfamily=quasibinomial

— Ben Bolker 10/09/12

Interessante. Os coeficientes estimados são os mesmos, mas os erros padrão são mais conservadores (e os anos não são significativos no modelo quasibinomial). Estou procurando nos arquivos de ajuda um quase-binômio, mas você pode explicar o que está acontecendo? Minha impressão foi de que quase-binômio é usado principalmente para super-dispersão. . .

— Jeremy _

Exatamente. Há uma variedade de diferenças entre lme glm(...,family=binomial), mas uma das mais importantes é que um GLM binomial faz fortes suposições sobre a variação. Se os dados não forem super dispersos, a agregação / desagregação não fará diferença.

— precisa saber é o seguinte

A saída R mostra que o paramater de dispersão é considerado 8,7. Estou tentando descobrir o que isso diz sobre superdispersão. Enquanto isso, Ben, vejo que você tem bastante experiência com modelos mistos. Estou seguro usando um binômio glm sem efeitos mistos para o informante ou a franquia (nesse caso, presumivelmente, eu teria que vetorizar todos os dados enquanto adicionava uma coluna para "Informant ID")?

— Jeremy _

$Y=c X_1^{k1}X_2^{k2}...X_n^{kn}$ $\ln(Y)=\ln(c)+k1 \ln(X_1)+k2 \ln(X_2)...+kn \ln(X_n)$ $R^2$

Agora, se a linha de regressão inalterada (idealmente uma regressão bivariada, por exemplo, uma regressão de Deming) não passa plausivelmente por {0,0}, fica um pouco mais complicada e minimiza-se uma função de perda proporcional de compensação em vez de usar menos comum quadrados

— Carl
fonte