Recentemente, deparei com um artigo fascinante sobre a previsão de retornos futuros do mercado de ações. O autor apresenta o gráfico abaixo e cita um R ^ 2 de 0,913. Isso tornaria o método do autor muito superior a qualquer coisa que eu já vi sobre o assunto (a maioria argumenta que o mercado de ações é imprevisível).
O autor descreve seu método detalhadamente e fornece uma teoria substancial para fazer backup dos resultados. Depois, li um segundo artigo crítico que referenciou este artigo: O mito da previsibilidade no horizonte longo . Aparentemente, as pessoas caem nessa ilusão há décadas. Infelizmente, eu realmente não entendo o jornal.
Isso me leva às seguintes perguntas:
- A falsa confiança das previsões de longo prazo ocorre devido ao uso do mesmo conjunto de dados para validação de treinamento e modelo? O problema desapareceria se os dados de treinamento e validação fossem extraídos de períodos de tempo separados e sem sobreposição?
- Além de validar o conjunto de treinamento, por que esse problema se torna mais pronunciado em horizontes mais longos?
- Em geral, como posso superar esse problema ao treinar modelos que precisam fazer previsões de longo prazo?