A autocorrelação em um conjunto de dados de aprendizado supervisionado é um problema?

10

Imagine o seguinte problema. Tenho instantâneos semanais de dados de preços de itens K, bem como de vários recursos / preditores. Quero prever quanto o preço mudará daqui a dois anos.

Eu montei meu conjunto de dados da seguinte forma: cada linha consiste em recursos para cada item de cada semana e a variável de saída é retornos de preço futuros de 2 anos. A data da observação não está no meu conjunto de dados - eu apenas o uso para separar o conjunto de dados em um conjunto de treinamento e validação, ou seja, na validação cruzada (onde descarto 2 anos de dados antes e depois do período de validação (que é 1 ano) para impedir a espionagem de dados).

Claramente, as amostras de duas semanas consecutivas para o mesmo item (e até para itens diferentes) serão altamente correlacionadas, tanto em termos de recursos quanto em termos de variável de resposta (já que os próximos 2 anos se sobrepõem amplamente, significando os retornos será muito semelhante). Que problemas potenciais podem causar para abordagens de aprendizado supervisionado, por exemplo, florestas aleatórias ou árvores com aumento de gradiente?

Meus pensamentos são:

O tamanho efetivo do conjunto de dados será menor que o esperado. Ou seja, meu conjunto de dados de, digamos, 100.000 observações se comportará mais como 100.000 / (52 * 2) ~ = 1000 observações, porque esse é o número de amostras para as quais a resposta não terá autocorrelação. Isso afetará significativamente a complexidade dos modelos que eu posso ajustar aos dados, ou seja, terei problemas significativos de ajuste excessivo e resultados muito piores do que o esperado.
Devido aos recursos estarem muito próximos um do outro em semanas consecutivas para cada item no espaço de recursos, meu conjunto de dados cobrirá o espaço de recursos muito pior do que o esperado, reduzindo novamente o tamanho "efetivo" do conjunto de dados.
O uso de apenas 1 ano de dados para validação na validação cruzada resultará em alta variação dos resultados da validação cruzada, porque mais uma vez, o número efetivo de amostras no conjunto de validação será ~ K em vez de 52 * K.

Essas preocupações são válidas? Se sim, isso significa que, com K ~ = 100, precisarei de centenas, senão milhares de anos de dados para poder treinar um modelo não linear razoavelmente complexo a partir de centenas de recursos, por exemplo, usando florestas aleatórias ou árvores com gradiente? Ou estou sendo excessivamente pessimista e meu argumento sobre o "tamanho efetivo do conjunto de dados" acima é absurdo?

— rinspy
fonte

6

Você toca em uma questão que tem um paralelo na literatura econométrica. É chamado de problema de previsibilidade no horizonte longo. Embora seja difícil prever os mercados de ações e moedas no curto prazo, alguns estudos econométricos mostraram que os retornos de longo prazo são "muito mais previsíveis" usando covariáveis como rendimentos de dividendos.

Bem, acontece que há uma falha sutil nesses modelos. Como a resposta e os preditores cobrem um período sobreposto, eles são altamente correlacionados automaticamente entre os horizontes e os pontos de dados não são independentes.

Aqui estão alguns papéis que eu poderia encontrar na minha biblioteca. O artigo de Berkowitz é provavelmente o mais devastador sobre o assunto.

Um estudo que mostra a previsibilidade do horizonte longo:

Mark, NC e Choi, DY (1997). Previsão da taxa de câmbio real em longos horizontes. Journal of International Economics, 43 (1), 29-60.

Críticas e testes estatísticos:

Berkowitz, J. & Giorgianni, L. (2001). Previsibilidade da taxa de câmbio no horizonte longo ?. The Review of Economics and Statistics, 83 (1), 81-91.

Boudoukh, J., Richardson, M. e Whitelaw, RF (2006). O mito da previsibilidade no horizonte longo. The Review of Financial Studies, 21 (4), 1577-1605.

Richardson, M. & Smith, T. (1991). Testes de modelos financeiros na presença de observações sobrepostas. The Review of Financial Studies, 4 (2), 227-254.

— horaceT
fonte

2

Obrigado. Uma rápida olhada na literatura (incluindo a resposta de Mark às críticas de Berkowitz) sugere que a questão de saber se os retornos a longo prazo são "mais previsíveis" não está totalmente resolvida. Parece que eu não deveria estar muito preocupado com correlações espúrias se usar a validação cruzada corretamente, desde que inconscientemente não introduza a seleção de recursos de todo o conjunto de dados no modelo. Mas ainda não está muito claro se o tamanho da amostra será um problema ou não.

— Rinspy

@rinspy Fico feliz que você leu sobre o tópico. Já faz um tempo, mas minha impressão é que Berkowitz e cols. Têm um argumento muito mais forte e a defesa de Mark não é convincente; portanto, você não viu mais trabalhos sobre a "previsibilidade do horizonte longo" disso e daquilo. Agora, de volta à sua pergunta. Não sei ao certo o que você quer dizer com usar o CV "corretamente", por favor, elabore.

— horaceT

@rinspy A raiz do problema é a independência dos dados. Quase todos os algoritmos de aprendizado de máquina dependem dessa suposição fundamental. Se você pegar dois pontos de dados que mediram coisas sobrepostas, os dois pontos de dados não são independentes. O único algoritmo que conheço que não exige essa suposição é o aprendizado por reforço.

— horaceT

3

Vamos esboçar seu problema como:

\begin{matrix} (1) & f ({X_{t} : t \leq T}) = X_{T + 1} \end{matrix}

$f(\{X_t: t \leq T \}) = X_{T+1} \tag{1}$

isto é, você está tentando aprender uma função . Seu conjunto de recursos é todos os dados disponíveis até . Em uma notação de alguma forma sobrecarregada, eu queria destacar o fato de que, se considerarmos como um processo estocástico, seria conveniente impor que seja adaptado a uma filtragem ( um fluxo crescente de informações ) - estou mencionando as filtrações aqui por uma questão de completude. $f(x)$ $T$ $X$ $X$

Também podemos considerar a equação como tentando estimar ( aqui ): $1$

E [X_{T + 1} | X_{T}, X_{T - 1}, . .] = f ({X_{t} : t \leq T})

$E[X_{T+1} | X_T, X_{T-1}, ..] = f(\{X_t: t \leq T \})$

No caso mais simples que aparece na minha cabeça - a regressão linear do OLS -, temos:

E [X_{T + 1} | X_{T}, X_{T - 1}, . .] = X b + e

$E[X_{T+1} | X_T, X_{T-1}, ..] = Xb + e$

Estou sugerindo esta linha de pensamento para unir a aprendizagem estatística e a econometria clássica.

Estou fazendo isso porque, não importa como você calcule (regressão linear, floresta aleatória, GBMs, ..) , você terá que lidar com a estacionariedade do seu processo X, ou seja: como se comporta com o tempo. Existem várias definições de estacionariedade que tentam fornecer uma amostra da homogeneidade temporal de seu processo estocástico, ou seja, como a média e a variação do estimador de seu valor esperado se comportam à medida que você aumenta o horizonte de previsão. $E[X_{T+1} | X_T, X_{T-1}, ..]$ $E[X_{T+1} | X_T, X_{T-1}, ..]$

No pior cenário, onde não há nenhum tipo de homogeneidade, cada {X_t} é extraído de uma variável aleatória diferente.
Melhor cenário, iid.

Estamos entre o pior e o melhor cenário: a autocorrelação afeta o tipo de estacionariedade que um processo estocástico exibe: a função de autocovariância , em que é o intervalo de tempo entre duas medições, caracteriza processos fracamente estacionários. A função de autocorrelação é a versão independente da escala da função de autocovariância ( origem , origem ) $\gamma(h)$ $h$

Se a função média m (t) é constante e a função de covariância r (s, t) é finita em todos os lugares, e depende apenas da diferença de tempo τ = t - s, o processo {X (t), t ∈ T} é chamado fracamente estacionário ou estacionário de covariância ( fonte )

A estrutura fracamente estacionária deve orientá-lo sobre como tratar seus dados. O principal argumento é que você não pode colocar a correlação automática debaixo do tapete - você precisa lidar com isso:

Você aumenta a granularidade da malha do tempo: você joga fora os pontos de dados (menos granularidade e muito menos dados para treinar seu modelo), mas a correlação automática ainda está mordendo você na dispersão de e você verá muita variação em sua validação cruzada $E[X_{T+1} | X_T, X_{T-1}, ..]$
Você aumenta a granularidade da malha de tempo: amostragem, fragmentação e validação cruzada são todos muito mais complexos. Do ponto de vista do modelo, você terá que lidar com a correlação automática explicitamente.

— IcannotFixThis
fonte