Eu recentemente aprendi Python e estou mergulhando minha mão na construção de um raspador de web. Não é nada extravagante; seu único objetivo é obter os dados de um site de apostas e colocá-los no Excel.
A maioria dos problemas é solucionável e estou tendo uma boa bagunça. No entanto, estou enfrentando um grande obstáculo em relação a um problema. Se um site carrega uma tabela de cavalos e lista os preços atuais das apostas, essas informações não estão em nenhum arquivo de origem. A pista é que esses dados estão ativos algumas vezes, com os números sendo atualizados obviamente a partir de algum servidor remoto. O HTML no meu PC simplesmente tem um buraco no qual seus servidores estão empurrando todos os dados interessantes que eu preciso.
Agora, minha experiência com o conteúdo dinâmico da Web é baixa, então é algo que estou tendo problemas para entender.
Eu acho que Java ou Javascript é uma chave, isso aparece com freqüência.
O raspador é simplesmente um mecanismo de comparação de probabilidades. Alguns sites têm APIs, mas eu preciso disso para aqueles que não têm. Eu estou usando a biblioteca scrapy com Python 2.7
Peço desculpas se esta pergunta é muito aberta. Em resumo, minha pergunta é: como o raspador pode ser usado para raspar esses dados dinâmicos para que eu possa usá-los? Para que eu possa raspar esses dados de probabilidades de apostas em tempo real?
Firefox
extensões como httpFox
ou liveHttpHeaders
e carregue uma página que esteja usando solicitação ajax. O Scrapy não identifica automaticamente as solicitações de ajax, você deve procurar manualmente o URL de ajax apropriado e, em seguida, solicitar com isso.