Deixe-me acrescentar meus 2 ¢, é meu trabalho obter dados bons e limpos para um fundo de hedge; já vi muitos feeds de dados e provedores de dados históricos. Isto é principalmente sobre dados de ações dos EUA.
Para começar, se você tiver algum dinheiro, não se preocupe com o download de dados do Yahoo, obtenha os dados do final do dia diretamente dos dados do CSI ; é aqui que o Yahoo obtém os dados de EOD e também o AFAIK. Eles possuem uma API na qual você pode extrair os dados para o formato que desejar. Acho que a assinatura anual de dados custa alguns US $ 100.
O principal problema com o download de dados de um serviço gratuito é que você só obtém ações que ainda existem, isso é chamado de Viés de Sobrevivência e pode fornecer resultados errados se você observar muitas ações, porque você incluirá apenas as que fizeram isso longe e não os que foram retirados da lista.
Para brincar com alguns dados intradiários que eu examinaria no IQFeed , eles fornecem várias APIs para extrair dados históricos, embora sejam principalmente uma roupa para feeds em tempo real. Mas aqui existem algumas opções, alguns corretores até fornecem downloads de dados históricos por meio de suas APIs, então escolha seu veneno.
MAS, geralmente, todos esses dados não são muito limpos. Quando você realmente começar a testar novamente, verá que algumas ações estão faltando ou aparecem como dois símbolos diferentes, ou que as divisões de ações não são contabilizadas adequadamente etc. E então você percebe que o histórico os dados de dividendos também são necessários e você começa a correr em círculos, juntando dados de 100 fontes de dados diferentes e assim por diante. Portanto, para começar com um "desconto", o feed de dados funcionará, mas assim que você executar backtests mais abrangentes, poderá ter problemas, dependendo do que fizer. Se você apenas olhar, digamos, as ações da S&P 500, isso não será um problema e será um feed intradiário "barato".
O que você não encontrará são dados intradiários gratuitos. Quero dizer, você pode encontrar alguns exemplos, tenho certeza de que existem 5 anos de dados de ticks MSFT flutuando, mas isso não o levará muito longe.
Então, se você precisar do material real ( carteira de pedidos de nível II, todos os ticks como ocorreram em todas as trocas), uma opção "acessível", mas excelente, é a Nanex . Eles realmente enviarão uma unidade com terabytes de dados. Se bem me lembro, são cerca de US $ 3k-4K por ano de dados. Mas confie em mim, depois de entender como é difícil obter bons dados intradiários, você não achará que isso é muito dinheiro.
Não é para desencorajá-lo, mas para obter bons dados é difícil, tão difícil que muitos fundos de hedge e bancos gastam centenas de milhares de dólares por mês para obter dados em que possam confiar. Novamente, você pode começar em algum lugar e depois partir de lá, mas é bom ver isso um pouco no contexto.
Edit: A resposta acima é da minha própria experiência. Este artigo da Caltech sobre feeds de dados disponíveis fornecerá mais informações e recomenda especialmente o QuantQuote .