Regressão de séries temporais com dados sobrepostos

Estou vendo um modelo de regressão que está regredindo os retornos ano-a-ano do índice de ações com atraso (12 meses) retornos ano-a-ano do mesmo índice de ações, spread de crédito (diferença entre a média mensal de títulos sem risco e títulos corporativos YoY - taxa de inflação e índice YoY da produção industrial.

Parece assim (embora você substitua os dados específicos da Índia neste caso):

SP500YOY(T) = a + b1*SP500YOY(T-12) + b2*CREDITSPREAD(T) +    
b4*INDUSTRIALPRODUCTION(T+2) + b3*INFLATION(T+2) + b4*INFLATIONASYMM(T+2)

SP500YOY é o retorno anual do índice SP500 Para calcular isso, a média mensal dos valores do SP500 é calculada e depois convertida em retornos ano a ano para cada mês (por exemplo, jan'10-jan'11, fev'10- Fev'11, mar'10-mar'11,.). No lado das variáveis explicativas, um valor de atraso de 12 meses do SP500YOY é usado junto com o CREDITSPREAD no tempo T e INFLATION e INDUSTRIALPRODUCTION dois períodos à frente. O INFLATIONASYMM é um manequim para saber se a inflação está acima de um valor limite de 5,0%. O índice entre parênteses mostra o índice de tempo para cada variável.

Isso é estimado por regressão linear OLS padrão. Para usar esse modelo para prever os retornos YOY de 1,2 e 3 meses à frente do SP500, é necessário gerar previsões à frente de 3,4 e 5 meses para a inflação e o índice de produção industrial. Essas previsões são feitas após o ajuste de um modelo ARIMA para cada um dos dois individualmente. As previsões do CreditSpread para 1,2 e 3 meses à frente são lançadas como estimativas mentais.

Gostaria de saber se essa regressão linear do OLS é correta / incorreta, eficiente / ineficiente ou prática estatística geralmente válida.

O primeiro problema que vejo é o uso de dados sobrepostos. ou seja, os valores diários do índice de ações são calculados em média todos os meses e depois usados para calcular retornos anuais que são acumulados mensalmente. Isso deve fazer com que o termo de erro seja correlacionado automaticamente. Eu pensaria que seria necessário usar alguma 'correção' nas linhas de um dos seguintes:

Estimador de covariância consistente de heterocedasticidade de White
Estimador de heterocedasticidade e autocorrelação consistente (HAC) de Newey & West
versão consistente de heterocedasticidade de Hansen & Hodrick

Realmente faz sentido aplicar a regressão linear OLS padrão (sem correções) a esses dados sobrepostos e, mais ainda, usar previsões ARIMA de três períodos à frente para variáveis explicativas a serem usadas na regressão linear OLS original para prever SP500YOY? Eu nunca vi essa forma antes e, portanto, não posso realmente julgá-la, sem a exceção de corrigir o uso de observações sobrepostas.

regression time-series autocorrelation

— Vishal Belsare
fonte

Por favor, não faça postagens cruzadas .

— Joshua Ulrich

Aqui estão alguns artigos que tratam desse assunto:

Britten-Jones e Neuberger, Inferência e estimativa aprimoradas em regressão com observações sobrepostas

Harri & Brorsen, o problema de sobreposição de dados

— R_Coholic
fonte

Não é muito claro nesses trabalhos como aplicar essas correções na prática. Existe uma explicação mais prática ou um tutorial em algum lugar?

— rinspy

@rinspy Veja quant.stackexchange.com/questions/35216/... para algum código em Hansen & Hodrick

— Candamir

Você pode fornecer um resumo das informações nesses artigos e como elas fornecem uma solução para a pergunta?

— gung - Restabelece Monica