Por que é válido prejudicar as séries temporais com a regressão?

Pode ser uma pergunta estranha, mas como um novato no assunto, pergunto-me por que usamos a regressão para prejudicar uma série temporal, se uma das suposições da regressão é que os dados devem ser considerados enquanto os dados nos quais a regressão está sendo aplicada são um non iid?

— FarrukhJ
fonte

Geralmente, não é verdade que fazer a suposição de que os "dados" é iid

— Christoph Hanck

O que você quer dizer exatamente com detrimento ?

— Matthew Gunn

Não tenho tempo para escrever uma resposta / documento adequada, mas em geral a correlação serial não influencia os resultados de uma regressão linear (altera o cálculo apropriado dos erros padrão, intervalos de confiança etc.). Isso torna a abordagem clássica de dois estágios (desprezar e depois analisar a correlação) sensata. (por exemplo, pesquisar no Google "a regressão linear de correlação serial imparcial leva a fmwww.bc.edu/ec-c/f2010/228/EC228.f2010.nn12.pdf )

— Ben Bolker

Talvez mais importante, o estimador OLS do coeficiente em uma tendência linear converge toda uma ordem de magnitude mais rapidamente (a uma taxa ) para seu valor real do que para os regressores estacionários ( ), o que significa que você pode estimar consistentemente a tendência, mesmo que negligencie as variáveis estacionárias. Isso contrasta com a estimativa dos efeitos de variáveis estacionárias uma a uma, em que você perde consistência se omitir variáveis.

n^{- 3 / 2}

$n^{-3/2}$

n^{- 1 / 2}

$n^{-1/2}$

— Richard Hardy

Respostas:

Você é perspicaz ao perceber que pode haver conflito entre suposições clássicas de regressão linear de mínimos quadrados comuns e a dependência serial comumente encontrada no cenário de séries temporais.

Considere a suposição 1.2 (estrita exogeneidade) da Econometria de Fumio Hayashi .

E [ϵ_{Eu} ∣ X] = 0 0

$\mathrm{E}[\epsilon_i \mid X] = 0$

Isto por sua vez implica , que qualquer residual é ortogonal a qualquer regressor . Como Hayashi aponta, essa suposição é violada no modelo autoregressivo mais simples . [1] Considere o processo AR (1): $\mathrm{E}[\epsilon_i \mathbf{x}_j] = \mathbf{0}$ $\epsilon_i$ $\mathbf{x}_j$

y_{t} = β y_{t - 1} + ϵ_{t}

$y_{t} = \beta y_{t-1} + \epsilon_t$

Podemos ver que será um regressor para , mas não é ortogonal a (isto é, ). $y_t$ $y_{t+1}$ $\epsilon_t$ $y_t$ $\mathrm{E}[\epsilon_ty_t]\neq0$

Como a suposição estrita de exogeneidade é violada, nenhum dos argumentos que se baseiam nessa suposição pode ser aplicado a esse modelo simples de AR (1)!

Então, nós temos um problema intratável?

Não, nós não! A estimativa de modelos AR (1) com mínimos quadrados comuns é um comportamento padrão totalmente válido. Por que ainda pode ficar bem?

Amostra grande, argumentos assintóticos não precisam de exogenidade estrita. Uma suposição suficiente (que pode ser usada em vez de estrita exogeneidade) é que os regressores são predeterminados , que os regressores são ortogonais ao termo de erro contemporâneo. Veja o Capítulo 2 de Hayashi para uma discussão completa.

Referências

[1] Fumio Hayashi, Econometria (2000), p. 35

[2] ibid., P. 134

— Matthew Gunn
fonte

Os métodos básicos de regressão do tipo de mínimos quadrados não assumem que os valores y sejam iid. Eles assumem que os resíduos (ie valor y menos tendência verdadeira) são iid.

Existem outros métodos de regressão que fazem suposições diferentes, mas isso provavelmente complicaria demais essa resposta.

— Geoffrey Brent
fonte

Suposição que também é claramente falsa: pense em uma série temporal com tendência linear e sazonalidade. Os resíduos remanescentes da regressão linear estão claramente correlacionados, não sendo, portanto, iiid.

— DeltaIV

É uma boa pergunta! O problema nem é mencionado nos meus livros de séries temporais (eu provavelmente preciso de livros melhores :) Primeiro, observe que você não é forçado a usar regressão linear para prejudicar uma série temporal, se a série tiver uma tendência estocástica (raiz da unidade )- você pode simplesmente pegar a primeira diferença. Mas você precisa usar a regressão linear, se a série tiver uma tendência determinística. Nesse caso, é verdade que os resíduos não são iid, como você diz. Basta pensar em uma série que tenha uma tendência linear, componentes sazonais, componentes cíclicos etc. todos juntos - após a regressão linear, os resíduos são praticamente independentes. O ponto é que você não está usando regressão linear para fazer previsões ou formar intervalos de previsão. É apenas uma parte do seu procedimento de inferência: você ainda precisa aplicar outros métodos para chegar a resíduos não correlacionados. Assim, enquanto a regressão linear per se não é um procedimento de inferência válido (não é o modelo estatístico correto) para a maioria das séries temporais, um procedimento que inclui regressão linear, pois uma de suas etapas pode ser um modelo válido, se o modelo assumido corresponder ao processo de geração de dados para o séries temporais.

— DeltaIV
fonte

Não diferencie se você tem uma tendência determinística - a diferenciação é apropriada apenas para tendências estocásticas (raízes unitárias). Se você diferenciar uma série sem raiz de unidade, introduzirá o tipo de média móvel integrada de erros no modelo, e isso é desagradável.

— Richard Hardy

Eu acho que você quer dizer diferença, não diferenciar.

— Hong Ooi

y_{t} = β_{0} + β_{1} y_{t - 1} + ϵ_{t}

$y_t=\beta_0+\beta_1 y_{t-1}+\epsilon_t$

@ HongOoi, sim, meu mal, eu quis dizer diferenciação, não diferenciação. DeltaIV, diz-se que uma série temporal tem uma tendência estocástica se a série temporal for um processo integrado (= raiz da unidade). Esse é um termo padrão na literatura de raiz unitária e de cointegração. Gostaria de saber se tem significados diferentes em outras vertentes da literatura. De qualquer forma, a diferenciação excessiva (= diferenciação de uma série temporal que não possui raiz unitária) é um fenômeno notório e deve ser evitado.

— Richard Hardy

y = β_{0} + b e t a_{1} x_{1}

$y=\beta_0+beta_1 x_1$