Eu tenho um conjunto de dados com 8000 clusters e 4 milhões de observações. Infelizmente, meu software estatístico, Stata, roda lentamente ao usar sua função de dados em painel para regressão logística: xtlogit
mesmo com uma subamostra de 10%.
No entanto, ao usar a logit
função não painel , os resultados aparecem muito mais cedo. Portanto, posso me beneficiar do uso logit
de dados modificados que respondem por efeitos fixos.
Acredito que esse procedimento seja cunhado como o "procedimento de efeitos fixos de Mundlak" (Mundlak, Y. 1978. Agrupamento de séries temporais e dados de seções transversais. Econometrica, 46 (1), 69-85).
Encontrei uma explicação intuitiva desse procedimento em um artigo de Antonakis, J., Bendahan, S., Jacquart, P. e Lalive, R. (2010). Sobre reivindicações causais: Uma revisão e recomendações. The Leadership Quarterly, 21 (6). 1086-1120. Eu cito:
Uma maneira de contornar o problema dos efeitos fixos omitidos e ainda incluir as variáveis do Nível 2 é incluir as médias de cluster de todas as covariáveis do Nível 1 no modelo estimado (Mundlak, 1978). Os meios de cluster podem ser incluídos como regressores ou subtraídos (isto é, centralização da média de cluster) da covariável de nível 1. Os meios de cluster são invariantes no cluster (e variam entre os clusters) e permitem uma estimativa consistente dos parâmetros do Nível 1, como se os efeitos fixos tivessem sido incluídos (veja Rabe-Hesketh & Skrondal, 2008).
Portanto, a centralização média do cluster parece ideal e prática para resolver meu problema computacional. No entanto, esses trabalhos parecem estar voltados para a regressão linear (OLS).
Esse método de centralização média do cluster também é aplicável à "replicação" da regressão logística binária de efeitos fixos?
Uma pergunta mais técnica que deveria resultar na mesma resposta seria: o xtlogit depvar indepvars, fe
conjunto de dados A é igual ao logit depvar indepvars
conjunto de dados B quando o conjunto de dados B é a versão centralizada da média do cluster do conjunto de dados A?
Uma dificuldade adicional que encontrei nessa centralização média do cluster é como lidar com manequins. Como os manequins são 0 ou 1, eles são idênticos na regressão de efeitos aleatórios e fixos? Eles não devem estar "centralizados"?