Por que usar dados transversais para inferir / prever alterações longitudinais é uma coisa ruim?


11

Estou procurando um artigo que espero que exista, mas não sei se existe. Pode ser um conjunto de estudos de caso e / ou um argumento da teoria das probabilidades, sobre o porquê o uso de dados transversais para inferir / prever mudanças longitudinais pode ser uma coisa ruim (ou seja, não é necessariamente assim, mas pode ser).

Eu já vi o erro cometido de várias maneiras: foram feitas inferências de que, porque as pessoas mais ricas na Grã-Bretanha viajam mais, então, à medida que a sociedade fica mais rica, a população como um todo viaja mais. Essa inferência acabou sendo falsa por um longo período - mais de uma década. E um padrão semelhante ao uso doméstico de eletricidade: dados transversais implicam grandes aumentos na renda, que não se manifestam com o tempo.

Há várias coisas acontecendo, incluindo efeitos de coorte e restrições do lado da oferta.

Seria muito útil ter uma única referência que compilasse estudos de caso como esse; e / ou usou a teoria das probabilidades para ilustrar por que o uso de dados transversais para inferir / prever mudanças longitudinais pode ser muito, muito enganador.

Existe um artigo desse tipo? Em caso afirmativo, o que é?


2
Acredito que os economistas pensariam nesses fenômenos como uma espécie de efeito geral de equilíbrio. As pessoas das estatísticas chamam isso de violação da Assunção de valor de tratamento de unidade estável. Eu acho que a questão do painel vs seção transversal é um pouco de um arenque vermelho.
Dimitriy V. Masterov 27/02

Respostas:


2

Você responde parcialmente à sua própria pergunta solicitando alterações "longitudinais". Os dados de seção transversal são chamados porque eles tiram uma foto instantânea no tempo, literalmente uma seção transversal cortada de uma sociedade que evolui no tempo, com seus muitos relacionamentos. Portanto, a melhor inferência que você pode esperar é supor que o que você está estudando é invariante no tempo, ou pelo menos concluiu sua evolução.

Por outro lado, os dados que você procura são dados longitudinais ou em painel para economistas.

Uma boa referência que explica principalmente métodos, mas também destaca dois exemplos importantes de Economia, está aqui . O exemplo 2.1 tem taxas de investimento da empresa.

A seção 3 é um pouco mais teórica, mas traz muitas informações: um modelo de dados em painel pode ser

yi,t=αyi,t1+xi,tγ+ηi+vi,t.

Agora, esse tipo de modelo pode capturar a dependência de estado, que é (próximo à heterogeneidade não observada) uma explicação comum para o motivo pelo qual as pessoas se comportam de maneira diferente. Portanto, se você observar apenas pessoas viajando em um determinado momento, seu não será identificado, o que significa que você não está ciente de quanto a viagem deles ontem influenciou a decisão de viajar novamente.α

Agora, desligue a dependência do tempo por um momento, mas lembre-se de que essa equação provavelmente pode ter sido o verdadeiro modelo.

Agora, em um modelo de seção transversal, você descartaria o índice inteiramente, porque só possui dados em um período. Portanto, você também não tem possibilidade de contabilizar o fato de que cada indivíduo em seu conjunto de dados pode ter totalmente diferentes, o que suas regressões para cima em geral, pelo menos quando o modelo verdadeiro for dinâmico. Essa é provavelmente a razão da superestimação, devido a um efeito individual não observado (também pode ser comum), que você não mediu, mas que foi refletido em seu estudo de seção transversal.tηis

Agora, insira os dados do painel novamente. O que podemos fazer é subtrair a média ao longo do tempo de cada variável que, dada a média de constante ao longo do tempo, eliminaria esse termo. Essa transformação (outras são possíveis) permite que você se concentre apenas na dinâmica (e na verdade você perderia qualquer regressor invariante no tempo).ηi

Agora, essa é a principal diferença entre os dados da seção transversal e do painel. O fato de você poder eliminar o efeito invariante no tempo porque possui essa variação de tempo permite remover certos vieses que a estimativa de seção transversal não permite detectar. Portanto, antes de considerar uma mudança de política, como um imposto mais alto sobre viagens, porque você espera que as pessoas viajem e deseja mais receita do governo, é mais útil observar o fenômeno ao longo de alguns anos, para ter certeza de que não está capturando heterogeneidade não observada em sua amostra que você interpreta como uma propensão a viajar.

Para estimar esses modelos, é melhor passar pela referência. Mas cuidado: diferentes suposições sobre o comportamento das pessoas tornarão diferentes procedimentos de estimativa admissíveis ou não.

Eu espero que isso ajude!


1

Parece muito com a definição de um processo não ergódico (as medidas sobre as realizações não são iguais às medidas ao longo do tempo). Infelizmente, pouquíssimos fenômenos interessantes do mundo real são ergódicos. Eu acho que esse poderia ser um caso de amostragem e inferência em escala mais fina, onde certas simplificações podem ser realizadas. Estou pensando em exemplos de pequenas escalas temporais ou espaciais, em que o comportamento caótico não é observado para que os preditores possam ser linearizados. Mas estou apenas divagando aqui .. Receio que também não posso ajudá-lo com literatura específica sobre o assunto. Desculpe: / Mas pergunta interessante, no entanto

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.