Estou procurando algumas técnicas robustas para remover discrepâncias e erros (seja qual for a causa) dos dados financeiros das séries temporais (por exemplo, tickdata).
Os dados das séries temporais financeiras de tick-by-tick são muito confusos. Ele contém grandes lacunas (de tempo) quando a bolsa é fechada e faz grandes saltos quando a bolsa é aberta novamente. Quando a troca é aberta, todos os tipos de fatores introduzem negociações nos níveis de preços incorretos (eles não ocorreram) e / ou não são representativos do mercado (um aumento por causa de uma oferta incorreta ou preço de venda incorreto, por exemplo). Este artigo de tickdata.com (PDF) faz um bom trabalho ao descrever o problema, mas oferece poucas soluções concretas.
A maioria dos artigos que posso encontrar on-line que mencionam esse problema o ignoram (os dados dos ticks são assumidos como filtrados) ou incluem a filtragem como parte de um grande modelo comercial que oculta qualquer etapa útil da filtragem.
Alguém está ciente de um trabalho mais aprofundado nesta área?
Atualização: essas perguntas parecem semelhantes na superfície, mas:
- As séries temporais financeiras são (pelo menos no nível do tick) não periódicas.
- O efeito de abertura é um grande problema, porque você não pode simplesmente usar os dados do último dia como inicialização, mesmo que realmente queira (porque, caso contrário, não terá nada). Eventos externos podem fazer com que a abertura do novo dia seja drasticamente diferente no nível absoluto e na volatilidade do dia anterior.
- Frequência extremamente irregular de dados recebidos. Perto da abertura e do fechamento do dia, a quantidade de pontos de dados / segundo pode ser 10 vezes maior que a média durante o dia. A outra pergunta lida com dados amostrados regularmente.
- Os "discrepantes" nos dados financeiros exibem alguns padrões específicos que podem ser detectados com técnicas específicas não aplicáveis em outros domínios e estou procurando, em parte, essas técnicas específicas.
- Em casos mais extremos (por exemplo, falha do flash), os valores discrepantes podem atingir mais de 75% dos dados em intervalos mais longos (> 10 minutos). Além disso, a (alta) frequência de dados recebidos contém algumas informações sobre o aspecto externo da situação.