Estou escrevendo um rastreador em Ruby (1.9) que consome muito HTML de muitos sites aleatórios.
Ao tentar extrair links, decidi usar apenas .scan(/href="(.*?)"/i)
nokogiri / hpricot (maior aceleração). O problema é que agora recebo muitos invalid byte sequence in UTF-8
erros " ".
Pelo que entendi, a net/http
biblioteca não tem opções específicas de codificação e o material que vem basicamente não está devidamente marcado.
Qual seria a melhor maneira de realmente trabalhar com os dados recebidos? Tentei .encode
com o conjunto de opções substituir e inválido, mas sem sucesso até agora ...
'U*'
desfaz 'C*'
?