Alguns arquivos PDF produzem lixo (" mojibake ") quando você copia texto (mesmo que eles estejam OK). Isso torna impossível procurá-los (o que você procurar não corresponderá ao lixo).
Alguém tem uma solução fácil?
Exemplos:
- Manual TEAC TV EU2816STF (produz problemas acima no Adobe Reader no Windows e no Mac, mas funciona bem na Visualização no Mac)
- Manual Leadtek Winfast PVR2 (link FTP; também tem problemas na Visualização em um Mac)
- Manual da placa sintonizadora de TV Swann (link FTP; também tem problemas na Visualização em um Mac)
- Contrato de licença do Phonedisc (do DTMS agora extinto )
- Revisão trimestral do fundo Macquarie IFP
- Folheto BAN-TACS para pequenas empresas (versão arquivada)
- Folheto Easterfest 2004 (também do arquivo)
Estou usando o Adobe Reader (versão mais recente) para Windows - talvez um visualizador alternativo possa ajudar? Estou procurando uma solução gratuita para Windows. O código aberto seria ainda melhor.
Edit: Os documentos da ferramenta Multivalent Extract Text têm um bom resumo de por que as coisas podem dar errado, incluindo: (documento citado pela última vez em janeiro de 2006)
- O texto pode não ter um mapeamento Unicode. As fontes PDF tipo 3 geralmente não possuem, e o TeX DVI possui caracteres que não possuem equivalentes Unicode.
- A codificação Unicode pode estar com erros. O Open Office mapeia alguns caracteres no mesmo Unicode, resultando em aparente queda de letra e duplicação.
Eu acho que a solução final nesses casos seria OCR cada glifo em uma fonte para descobrir qual personagem realmente é. Observe que isso seria mais fácil do que OCR em um documento digitalizado barulhento porque a forma exata do glifo está disponível (em resolução infinita, pois é uma imagem "vetorial").
clipbrd.exe
(consulte mydigitallife.info/2008/11/06/… ), você pode ver o que está na área de transferência. O que isso te dá?