Diferença entre dados em painel e modelo misto

14

Gostaria de saber a diferença entre análise de dados em painel e análise de modelo misto. Que eu saiba, tanto os dados do painel quanto os modelos mistos usam efeitos fixos e aleatórios. Se sim, por que eles têm nomes diferentes? Ou eles são sinônimos?

Eu li o seguinte post, que descreve a definição de efeito fixo, aleatório e misto, mas não responde exatamente a minha pergunta: Qual é a diferença entre modelos de efeito fixo, efeito aleatório e efeito misto?

Também ficaria grato se alguém pudesse me encaminhar para uma breve referência (cerca de 200 páginas) sobre análise de modelo misto. Apenas para adicionar, eu preferiria referência de modelagem mista, independentemente do tratamento do software. Explicação principalmente teórica da modelagem mista.

mixed-model references panel-data

— Beta
fonte

Veja também: stats.stackexchange.com/questions/171313/…

— rightskewed

Relacionado: stats.stackexchange.com/questions/238214

— ameba says Reinstate Monica

22

Os dados do painel e os dados do modelo de efeito misto lidam com variáveis aleatórias indexadas duplas . O primeiro índice é para o grupo, o segundo é para os indivíduos do grupo. Para os dados do painel, o segundo índice geralmente é o tempo, e supõe-se que observemos indivíduos ao longo do tempo. Quando o tempo é o segundo índice do modelo de efeito misto, os modelos são chamados de modelos longitudinais. O modelo de efeito misto é melhor compreendido em termos de regressões de 2 níveis. (Para facilitar a exposição, assuma apenas uma variável explicativa) $y_{ij}$

A regressão de primeiro nível é a seguinte

y_{i j} = α_{i} + x_{i j} β_{i} + ε_{i j} .

$y_{ij}=\alpha_i+x_{ij}\beta_i+\varepsilon_{ij}.$

Isso é simplesmente explicado como regressão individual para cada grupo. A regressão de segundo nível tenta explicar a variação nos coeficientes de regressão:

α_{i} = γ_{0} + z_{i 1} γ_{1} + u_{i}

$\alpha_i=\gamma_0+z_{i1}\gamma_1+u_i$

β_{i} = δ_{0 0} + z_{i 2} δ_{1} + v_{Eu}

$\beta_i=\delta_0+z_{i2}\delta_1+v_i$

Quando você substitui a segunda equação pela primeira, obtém

y_{Eu j} = γ_{0 0} + z_{Eu 1} γ_{1} + x_{Eu j} δ_{0 0} + x_{Eu j} z_{Eu 2} δ_{1} + {você}_{Eu} + x_{Eu j} v_{Eu} + ε_{Eu j}

$y_{ij}=\gamma_0+z_{i1}\gamma_1+x_{ij}\delta_0+x_{ij}z_{i2}\delta_1+u_i+x_{ij}v_i+\varepsilon_{ij}$

Os efeitos fixos são o que é fixo, isso significa . Os efeitos aleatórios são e . $\gamma_0,\gamma_1,\delta_0,\delta_1$ $u_i$ $v_i$

Agora, para os dados do painel, a terminologia muda, mas você ainda pode encontrar pontos em comum. Os modelos de efeitos aleatórios dos dados do painel são os mesmos do modelo de efeitos mistos com

α_{Eu} = γ_{0 0} + {você}_{Eu}

$\alpha_i=\gamma_0+u_i$

β_{Eu} = δ_{0 0}

$\beta_i=\delta_0$

com o modelo se tornando

y_{i t} = γ_{0} + x_{i t} δ_{0} + u_{i} + ε_{i t},

$y_{it}=\gamma_0+x_{it}\delta_0+u_i+\varepsilon_{it},$

Onde são efeitos aleatórios. $u_i$

A diferença mais importante entre o modelo de efeitos mistos e os modelos de dados em painel é o tratamento dos regressores . Para modelos de efeitos mistos, são variáveis não aleatórias, enquanto que para modelos de dados em painel sempre se assume que eles são aleatórios. Isso se torna importante ao declarar o que é modelo de efeitos fixos para dados do painel. $x_{ij}$

Para o modelo de efeito misto, assume-se que os efeitos aleatórios e são independentes de e também de e , o que sempre é verdadeiro quando e são fixos. Se permitirmos que para estocástico isso se torna importante. Portanto, o modelo de efeitos aleatórios para dados em painel assume que não está correlacionado com $u_i$ $v_i$ $\varepsilon_{ij}$ $x_{ij}$ $z_i$ $x_{ij}$ $z_i$ $x_{ij}$ $x_{it}$ . Mas o modelo de efeito fixo que tem a mesma forma $u_i$

y_{i t} = γ_{0} + x_{i t} δ_{0} + u_{i} + ε_{i t},

$y_{it}=\gamma_0+x_{it}\delta_0+u_i+\varepsilon_{it},$

$x_{it}$ $u_i$ $\delta_0$

y_{i t} - {\bar{y}}_{i .} = (x_{i t} - {\bar{x}}_{i .}) δ_{0} + ε_{i t} - {\bar{ε}}_{i .},

$y_{it}-\bar{y}_{i.}=(x_{it}-\bar{x}_{i.})\delta_0+\varepsilon_{it}-\bar{\varepsilon}_{i.},$

and using simple OLS on resulting regression problem. Algebraically this coincides with least square dummy variable regression problem, where we assume that $u_i$ are fixed parameters. Hence the name fixed effects model.

There is a lot of history behind fixed effects and random effects terminology in panel data econometrics, which I omitted. In my personal opinion these models are best explained in Wooldridge's "Econometric analysis of cross section and panel data". As far as I know there is no such history in mixed effects model, but on the other hand I come from econometrics background, so I might be mistaken.

— mpiktas
fonte

When you substituted (2) and (3) into (1), I think something got mangled. I believe it should be

. . . + x_{i j} v_{i} + u_{i} + ε_{i j}

$...+x_{ij}v_{i}+u_{i}+\varepsilon_{ij}$ unless I am missing something.

— Dimitriy V. Masterov 20/08/2012

This explanation is wonderful! Thanks a lot for taking all the effort for giving me such a wonderful exposition.Just want to ask one thing. What you you mean by 2 level regression?

— Beta

2

@Ari, the second level regression is a regression for regression coefficients of first level regression. The first level regression tries to explain variation within group, whereas the second level regression tries to explain variation across groups. This division is artificial, but I like it since it feels natural for me at least. This type of division is also used in hierarchical Bayes models.

— mpiktas

This is a very good answer, +1 long time ago. The only thing that I find missing here is some discussion of how the

δ_{0}

$\delta_0$ coefficient of the "random effect model" in econometrics is estimated. You explain it for the "fixed effect model", but don't comment on the random one. I would very much appreciate if you could add something about it.

— amoeba says Reinstate Monica

3

I understand you're looking for a text that describes mixed modelling theory without reference to a software package.

I would recommend Multilevel Analysis, An introduction to basic and advanced multilevel modelling by Tom Snijders and Roel Bosker, about 250pp. It has a chapter on software at the end (which is somewhat outdated now) but the remainder is very approachable theory.

I must say though that I agree with the recommendation above for Multilevel and Longitudinal Models Using Stata by Sophia Rabe-Hesketh and Anders Skrondal. The book is very theoretical and the software component is really just a nice addition to a substantial text. I don't normally use Stata and have the text sitting on my desk and find it extremely well written. It is however much longer than 200pp.

The following texts are all written by current experts in the field and would be useful for anyone wanting more information about these techniques (although they don't specifically fit your request): [I can't link to these because I'm a new user, sorry]

Hoox, Joop (2010). Multilevel Analysis, Techniques and Applications.

Gelman, A., and Hill, J. (2006) Data Analysis Using Regression and Multilevel/Hierarchical Models.

Singer, J. (2003) Applied Longitudinal Data Analysis: Modeling Change and Event Occurance

Raudenbush, S. W., and Bryk, A., S. (2002). Hierarchical Linear Models: Applications and data analysis methods

Luke, Douglas,(2004). Multilevel Modeling

I would also second Wooldridge's text mentioned above, as well as the R text, and the Bristol University Centre for Multilevel Modelling has a bunch of tutorials and information

— playitagain
fonte

Thanks Playitagain! This one is very useful information. Even ur name is interesting :)

— Beta

2

I too have wondered about the difference between both as well and having recently found a reference on this topic I understand that "panel data" is a traditional name for datasets that represent a "cross-section or group of people who are surveyed periodically over a given time span". So the "panel" is a group-structure within the dataset, and having such a group the most natural way of analyzing this type of data is via a mixed-modelling approach.

A good reference (regardless if you "speak" R or not) on mixed-effects modelling is the draft of a (?)forthcoming book by Douglas Bates (lme4: Mixed-effects modeling with R).

— ils
fonte

1

Obrigado ils pela referência! Mas o problema ainda permanece.

— Beta

2

@mpiktas deu uma resposta completa. Também gostaria de sugerir a leitura do capítulo 7 da documentação para o pacote de PLM em R . Vale a pena ler a discussão dos autores sobre a diferença entre modelos mistos e dados em painel.

— KarthikS
fonte

1

Se você usar modelos Stata, multinível e longitudinal, usando Stata de Sophia Rabe-Hesketh e Anders Skrondal seria uma boa opção. Dependendo do que exatamente você está interessado, 200 páginas podem estar certas.

— Dimitriy V. Masterov
fonte

Obrigado Dimitriy pela referência. Mas infelizmente não uso STATA. Eu uso principalmente SAS, e às vezes R. Mas obrigado de qualquer maneira.

— Beta

2

Ouvi coisas boas sobre wiley.com/WileyCDA/WileyTitle/productCd-0470073713.html , mas não li isso pessoalmente.

— Dimitriy V. Masterov 20/08/2012

Obrigado Dimitriy! Isso parece realmente promissor. A vantagem de fazer perguntas, em vez de arregalar os olhos, é que você obtém bons resultados :)

— Beta

1

Na minha experiência, a lógica para usar a 'econometria do painel' é que os estimadores de 'efeitos fixos' do painel podem ser usados para controlar várias formas de viés variável omitido.

No entanto, é possível realizar esse tipo de estimativa em um modelo multinível usando uma abordagem do tipo Mundlak , ou seja, incluindo os meios do grupo como regressores extras. Essa abordagem remove a correlação entre o termo de erro e os fatores omitidos no nível do grupo em potencial, revelando o coeficiente 'dentro'. No entanto, por um motivo desconhecido para mim, isso normalmente não é feito na pesquisa aplicada. Esses slides e este documento fornecem uma elaboração.

— EddieMcGoldrick
fonte

(+1) Os sociólogos costumam interpretar os meios de grupos como efeitos contextuais (embora isso seja mais frequentemente para dados transversais aninhados do que para dados de painel de séries temporais). Vou precisar ler, da nota relacionada Manski (1993) ( PDF aqui ) tem um artigo que mostra como esses efeitos contextuais freqüentemente não são identificados. Por "razões pelas quais isso não foi feito", suspeito que haja tanta diferença entre as práticas das ciências sociais quanto qualquer outra coisa, pode ser uma boa pergunta.

— 21712 Andy W