A referência a "deixar os dados guiarem o modelo" pode ser atribuída a George EP Box e Gwilym M. Jenkins . No capítulo 2 de seu livro clássico, Análise de séries temporais: previsão e controle (1976), diz-se que:
A obtenção de estimativas amostrais da função de autocorrelação e do espectro são abordagens não estruturais, análogas à representação de uma função de distribuição empírica por um histograma. Ambas são maneiras de permitir que os dados das séries estacionárias `` falem por si '' e fornecem um primeiro passo na análise de séries temporais, assim como um histograma pode fornecer um primeiro passo na análise distributiva de dados, apontando o caminho para algum modelo paramétrico no qual a análise subsequente será baseada.
Esse procedimento de modelagem de deixar os dados falarem , como defendido por Box & Jenkins, é obviamente referido em toda a literatura sobre modelagem ARIMA. Por exemplo, no contexto de identificação de modelos ARIMA provisórios, Pankratz (1983) diz:
Observe que não abordamos os dados disponíveis com uma idéia rígida e preconcebida sobre qual modelo usaremos. Em vez disso, permitimos que os dados disponíveis `` conversem conosco '' na forma de uma função estimada de autocorrelação e uma função parcial de autocorrelação.
Assim, pode-se dizer que a ideia de '' deixar os dados guiarem o modelo '' é uma característica predominante na análise de séries temporais.
Noções semelhantes podem, no entanto, ser encontradas em outros (sub) campos de estudo. Por exemplo, @Dmitrij Celov fez corretamente referência ao artigo pioneiro de Christopher Sims, Macroeconomics and Reality (1980), que foi uma reação contra o uso de modelos de equações simultâneas em larga escala em macroeconomia.
A abordagem tradicional em macroeconomia era usar a teoria econômica como um guia para construir modelos macroeconômicos. Freqüentemente, os modelos eram compostos de centenas de equações e restrições, como a pré-decisão dos sinais de alguns coeficientes, seriam impostas a eles. Sims (1980) foi crítico ao usar esse conhecimento a priori para construir modelos macroeconômicos:
O fato de grandes modelos macroeconômicos serem dinâmicos é uma fonte rica de restrições espúrias "a priori".
Como já mencionado por @Dmitrij Celov, a abordagem alternativa defendida por Sims (1980) era especificar equações autoregressivas de vetores - que são (essencialmente) baseadas nos próprios valores defasados das variáveis e nos valores defasados de outras variáveis.
Embora eu seja fã da noção de `` deixar os dados falarem por si '' , não tenho muita certeza se essa metodologia pode ser estendida completamente em todas as áreas de estudo. Por exemplo, considere fazer um estudo em economia do trabalho para tentar explicar a diferença entre os salários entre homens e mulheres em um determinado país. A seleção do conjunto de regressores nesse modelo provavelmente será guiada pela teoria do capital humano . Em outros contextos, o conjunto de regressores pode ser selecionado com base no que nos interessa e no que o senso comum nos diz. Verbeek (2008) diz:
É uma boa prática selecionar o conjunto de variáveis potencialmente relevantes com base em argumentos econômicos e não estatísticos. Embora às vezes seja sugerido de outra forma, argumentos estatísticos nunca são argumentos de certeza.
Realmente, só posso arranhar a superfície aqui porque é um tópico tão grande, mas a melhor referência que me deparei sobre modelagem é Granger (1991). Se sua formação não é econômica, não deixe o título do livro te adiar. A maior parte da discussão ocorre no contexto da modelagem de séries econômicas, mas tenho certeza de que as de outras áreas se beneficiariam muito disso e acharão útil.
O livro contém excelentes discussões sobre diferentes metodologias de modelagem, como:
- A abordagem geral para específica (ou metodologia LSE), como defendido por David Hendry.
- A abordagem específica para geral.
- A metodologia de Edward Leamer (geralmente associada aos termos "análise de sensibilidade (ou limites extremos)" e "bayesiana" ).
- Coincidentemente, a abordagem de Christophers Sims também é abordada.
Vale a pena notar que Granger (1991) é realmente uma coleção de papéis; portanto, em vez de tentar obter uma cópia do livro, é claro que você pode procurar o índice e tentar encontrar os artigos por conta própria. (Veja o link abaixo.)
Espero que isso tenha sido útil!
Referências: