Estou escrevendo um rastreador em Ruby (1.9) que consome muito HTML de muitos sites aleatórios.
Ao tentar extrair links, decidi usar apenas .scan(/href="(.*?)"/i)nokogiri / hpricot (maior aceleração). O problema é que agora recebo muitos invalid byte sequence in UTF-8erros " ".
Pelo que entendi, a net/httpbiblioteca não tem opções específicas de codificação e o material que vem basicamente não está devidamente marcado.
Qual seria a melhor maneira de realmente trabalhar com os dados recebidos? Tentei .encodecom o conjunto de opções substituir e inválido, mas sem sucesso até agora ...
'U*'desfaz 'C*'?