Aqui estou no gelo fino, mas deixe-me tentar: tenho a sensação (por favor, comente!) De que a principal diferença entre estatística e econometria é que, em estatística, tendemos a considerar os regressores como fixos, daí a matriz de design de terminologia que obviamente vem de projeto de experimentos, onde a suposição é que estamos escolhendo primeiro e depois fixando as variáveis explicativas.
Mas para a maioria dos conjuntos de dados, a maioria das situações, esse é um ajuste inadequado. Realmente estamos observando as variáveis explicativas e, nesse sentido, elas estão no mesmo pé que as variáveis de resposta, ambas são determinadas por algum processo aleatório fora do nosso controle. Ao considerar os como "fixos", decidimos não considerar muitos problemas que isso pode causar. x
Por considerar os regressores como estocásticos, por outro lado, como costumam fazer economistas, abrimos a possibilidade de modelagem que tenta considerar tais problemas. Uma pequena lista de problemas que podemos considerar e incorporar à modelagem é:
- erros de medição nos regressores
- correlações entre regressores e termos de erro
- resposta retardada como regressor
- ...
Provavelmente, isso deve ser feito com muito mais frequência do que é feito hoje?
EDIT
Tentarei elaborar um argumento para condicionar os regressores de maneira um pouco mais formal. Deixe ser um vector aleatório, e interesse está em regressão em , onde regressão é tomado para significar a esperança condicional de em . Sob suposições multinormais, isso será uma função linear, mas nossos argumentos não dependem disso. Começamos com fatorar a densidade da junta da maneira usual
mas como essas funções não são conhecidas, usamos um modelo parametrizado
que parametriza a distribuição condicional e(Y,X)YXYXf(y,x)=f(y∣x)f(x)
f(y,x;θ,ψ)=fθ(y∣x)fψ(x)
θψa distribuição marginal de . No modelo linear normal, podemos ter mas isso não é assumido. O espaço completo dos parâmetros de é , um produto cartesiano, e os dois parâmetros não têm parte em comum.Xθ=(β,σ2)(θ,ψ)Θ×Ψ
Isso pode ser interpretado como uma fatoração do experimento estatístico (ou do processo de geração de dados, DGP), o primeiro é gerado de acordo com e, como segundo passo, é gerado de acordo com a densidade condicional . Observe que o primeiro passo não utiliza nenhum conhecimento sobre , que entra apenas no segundo passo. A estatística é auxiliar para , consulte https://en.wikipedia.org/wiki/Ancillary_statistic .Xfψ(x)Yfθ(y∣X=x)θXθ
Mas, dependendo dos resultados do primeiro passo, o segundo passo pode ser mais ou menos informativo sobre . Se a distribuição dada por tiver uma variação muito baixa, digamos, os observados serão concentrados em uma região pequena, por isso será mais difícil estimar . Portanto, a primeira parte desse experimento em duas etapas determina a precisão com a qual pode ser estimado. Portanto, é natural condicionar na inferência sobre os parâmetros de regressão. Esse é o argumento da condicionalidade, e o esquema acima esclarece suas suposições.θfψ(x)xθθX=x
Em experimentos projetados, sua suposição prevalecerá, geralmente com dados observacionais não. Alguns exemplos de problemas serão: regressão com respostas atrasadas como preditores. O condicionamento nos preditores nesse caso também condicionará a resposta! (Vou adicionar mais exemplos).
Um livro que discute esses problemas com muitos detalhes é Informação e famílias exponenciais: Na teoria estatística de O. E Barndorff-Nielsen. Veja especialmente o capítulo 4. O autor diz que a lógica da separação nesta situação é raramente explicada, mas fornece as seguintes referências: RA Fisher (1956) Métodos Estatísticos e Inferência Científica e Sverdrup (1966) O estado atual da teoria da decisão e a teoria de Neyman-Pearson .§4.3