Eu codifico muitos analisadores. Até agora, eu estava usando o navegador sem cabeça HtmlUnit para análise e automação do navegador.
Agora, quero separar as duas tarefas.
Como 80% do meu trabalho envolve apenas a análise, eu quero usar um analisador HTML leve, porque leva muito tempo no HtmlUnit para carregar uma página primeiro, depois obter a fonte e analisá-la.
Quero saber qual analisador de HTML é o melhor. O analisador seria melhor se estiver próximo ao analisador HtmlUnit.
EDITAR:
Na melhor das hipóteses, quero pelo menos os seguintes recursos:
- Rapidez
- Facilidade para localizar qualquer HtmlElement por seu "id" ou "nome" ou "tipo de tag".
Seria bom para mim se não limpar o código HTML sujo. Não preciso limpar nenhuma fonte HTML. Eu só preciso de uma maneira mais fácil de percorrer os HtmlElements e coletar dados deles.