Qual é a diferença entre condicionar os regressores e tratá-los como fixos?

Às vezes assumimos que os regressores são fixos, ou seja, não são estocásticos. Eu acho que isso significa que todos os nossos preditores, estimativas de parâmetros etc. são incondicionais, certo? Posso ir tão longe que eles não são mais variáveis aleatórias?

Se, por outro lado, aceitarmos que a maioria dos regressores da economia diz ser estocástica, porque nenhuma força externa os determinou com algum experimento em mente. Os economometristas então condicionam esses regressores estocásticos.

Como isso é diferente de tratá-los como fixos?

Eu entendo o que é condicionamento. Matematicamente, significa que condicionamos todas as observações e inferência a esse conjunto específico de regressores e não temos ambições de dizer que inferências, estimativas de parâmetros, estimativas de variância etc. seriam as mesmas se tivéssemos visto uma realização diferente de nossos regressores (como é o caso). o ponto crucial da série temporal, onde cada série temporal é vista apenas uma vez).

No entanto, para realmente entender a diferença entre regressores fixos e condicionantes em regressores estocásticos, pergunto-me se alguém aqui conhece algum exemplo de procedimento de estimativa ou inferência que seja válido para, por exemplo, regressores fixos, mas quebre quando for estocástico (e será estar condicionado).

Estou ansioso para ver esses exemplos!

— Hirek
fonte

Você conhece os modelos de erros em variáveis?

— precisa saber é o seguinte

Hey @ robin.datadrivers não, eu não sou realmente.

— Hirek

Estes são modelos projetados especificamente para ajustar estimativas para erro de medição nas variáveis independentes. Não é o mesmo que regressores estocásticos, mas pode ser útil dar uma olhada. Além disso, a pesquisa em geral geralmente assume que variáveis independentes coletadas por pesquisas têm erro de amostragem - provavelmente existem modelos por aí que representam erros de amostragem.

— Robin.datadrivers 13/04/2015

Outro pensamento que me deparei foi usar modelos bayesianos. Os modelos bayesianos podem tratar os regressores como aleatórios, especificando uma distribuição anterior para eles. Normalmente, se eles forem tratados como fixos, você especificará uma distribuição anterior apenas para os parâmetros (coeficientes, médias, variações), mas quando houver covariáveis ou resultados ausentes, você especificará uma distribuição anterior para eles. Não sei exatamente como implementá-lo sem mais reflexão, mas talvez haja uma maneira de especificar uma distribuição anterior para cada variável independente.

— precisa saber é o seguinte

Aqui estou no gelo fino, mas deixe-me tentar: tenho a sensação (por favor, comente!) De que a principal diferença entre estatística e econometria é que, em estatística, tendemos a considerar os regressores como fixos, daí a matriz de design de terminologia que obviamente vem de projeto de experimentos, onde a suposição é que estamos escolhendo primeiro e depois fixando as variáveis explicativas.

Mas para a maioria dos conjuntos de dados, a maioria das situações, esse é um ajuste inadequado. Realmente estamos observando as variáveis explicativas e, nesse sentido, elas estão no mesmo pé que as variáveis de resposta, ambas são determinadas por algum processo aleatório fora do nosso controle. Ao considerar os como "fixos", decidimos não considerar muitos problemas que isso pode causar. $x$

Por considerar os regressores como estocásticos, por outro lado, como costumam fazer economistas, abrimos a possibilidade de modelagem que tenta considerar tais problemas. Uma pequena lista de problemas que podemos considerar e incorporar à modelagem é:

erros de medição nos regressores
correlações entre regressores e termos de erro
resposta retardada como regressor
...

Provavelmente, isso deve ser feito com muito mais frequência do que é feito hoje?

EDIT

Tentarei elaborar um argumento para condicionar os regressores de maneira um pouco mais formal. Deixe ser um vector aleatório, e interesse está em regressão em , onde regressão é tomado para significar a esperança condicional de em . Sob suposições multinormais, isso será uma função linear, mas nossos argumentos não dependem disso. Começamos com fatorar a densidade da junta da maneira usual mas como essas funções não são conhecidas, usamos um modelo parametrizado que parametriza a distribuição condicional e $(Y,X)$ $Y$ $X$ $Y$ $X$

f (y, x) = f (y ∣ x) f (x)

$f(y,x) = f(y\mid x) f(x)$

f (y, x; θ, ψ) = f_{θ} (y ∣ x) f_{ψ} (x)

$f(y,x; \theta, \psi)=f_\theta(y \mid x) f_\psi(x)$

θ

$\theta$

ψ

$\psi$ a distribuição marginal de . No modelo linear normal, podemos ter mas isso não é assumido. O espaço completo dos parâmetros de é , um produto cartesiano, e os dois parâmetros não têm parte em comum.

X

$X$

θ = (β, σ^{2})

$\theta=(\beta, \sigma^2)$

(θ, ψ)

$(\theta,\psi)$

Θ \times Ψ

$\Theta \times \Psi$

Isso pode ser interpretado como uma fatoração do experimento estatístico (ou do processo de geração de dados, DGP), o primeiro é gerado de acordo com e, como segundo passo, é gerado de acordo com a densidade condicional . Observe que o primeiro passo não utiliza nenhum conhecimento sobre , que entra apenas no segundo passo. A estatística é auxiliar para , consulte https://en.wikipedia.org/wiki/Ancillary_statistic . $X$ $f_\psi(x)$ $Y$ $f_\theta(y \mid X=x)$ $\theta$ $X$ $\theta$

Mas, dependendo dos resultados do primeiro passo, o segundo passo pode ser mais ou menos informativo sobre . Se a distribuição dada por tiver uma variação muito baixa, digamos, os observados serão concentrados em uma região pequena, por isso será mais difícil estimar . Portanto, a primeira parte desse experimento em duas etapas determina a precisão com a qual pode ser estimado. Portanto, é natural condicionar na inferência sobre os parâmetros de regressão. Esse é o argumento da condicionalidade, e o esquema acima esclarece suas suposições. $\theta$ $f_\psi(x)$ $x$ $\theta$ $\theta$ $X=x$

Em experimentos projetados, sua suposição prevalecerá, geralmente com dados observacionais não. Alguns exemplos de problemas serão: regressão com respostas atrasadas como preditores. O condicionamento nos preditores nesse caso também condicionará a resposta! (Vou adicionar mais exemplos).

Um livro que discute esses problemas com muitos detalhes é Informação e famílias exponenciais: Na teoria estatística de O. E Barndorff-Nielsen. Veja especialmente o capítulo 4. O autor diz que a lógica da separação nesta situação é raramente explicada, mas fornece as seguintes referências: RA Fisher (1956) Métodos Estatísticos e Inferência Científica e Sverdrup (1966) O estado atual da teoria da decisão e a teoria de Neyman-Pearson . $\S 4.3$

— kjetil b halvorsen
fonte