Recentemente, aprendi que usar uma regex para analisar o HTML de um site e obter os dados necessários não é o melhor curso de ação.
Portanto, minha pergunta é simples: qual é a melhor / mais eficiente e uma maneira geralmente estável de obter esses dados?
Devo observar que:
- Não há APIs
- Não há outra fonte de onde eu possa obter os dados (sem bancos de dados, feeds e outros)
- Não há acesso aos arquivos de origem. (Dados de sites públicos)
- Digamos que os dados sejam texto normal, exibidos em uma tabela em uma página html
Atualmente, estou usando python para o meu projeto, mas uma solução independente de linguagem / dicas seria bom.
Como uma pergunta secundária: como você lidaria com isso quando a página da Web é construída por chamadas do Ajax?
EDITAR:
No caso da análise de HTML, eu sei que não há uma maneira estável e real de obter os dados. Assim que a página mudar, seu analisador estará pronto. O que quero dizer com estável neste caso é: uma maneira eficiente de analisar a página, que sempre me entrega os mesmos resultados (para o mesmo conjunto de dados obviamente), desde que a página não mude.