pesquise PDFs com codificações de caracteres não padrão

19

Alguns arquivos PDF produzem lixo (" mojibake ") quando você copia texto (mesmo que eles estejam OK). Isso torna impossível procurá-los (o que você procurar não corresponderá ao lixo).

Alguém tem uma solução fácil?

Exemplos:

Manual TEAC TV EU2816STF (produz problemas acima no Adobe Reader no Windows e no Mac, mas funciona bem na Visualização no Mac)
Manual Leadtek Winfast PVR2 (link FTP; também tem problemas na Visualização em um Mac)
Manual da placa sintonizadora de TV Swann (link FTP; também tem problemas na Visualização em um Mac)
Contrato de licença do Phonedisc (do DTMS agora extinto )
Revisão trimestral do fundo Macquarie IFP
Folheto BAN-TACS para pequenas empresas (versão arquivada)
Folheto Easterfest 2004 (também do arquivo)

Estou usando o Adobe Reader (versão mais recente) para Windows - talvez um visualizador alternativo possa ajudar? Estou procurando uma solução gratuita para Windows. O código aberto seria ainda melhor.

Edit: Os documentos da ferramenta Multivalent Extract Text têm um bom resumo de por que as coisas podem dar errado, incluindo: (documento citado pela última vez em janeiro de 2006)

O texto pode não ter um mapeamento Unicode. As fontes PDF tipo 3 geralmente não possuem, e o TeX DVI possui caracteres que não possuem equivalentes Unicode.

A codificação Unicode pode estar com erros. O Open Office mapeia alguns caracteres no mesmo Unicode, resultando em aparente queda de letra e duplicação.

Eu acho que a solução final nesses casos seria OCR cada glifo em uma fonte para descobrir qual personagem realmente é. Observe que isso seria mais fácil do que OCR em um documento digitalizado barulhento porque a forma exata do glifo está disponível (em resolução infinita, pois é uma imagem "vetorial").

pdf search character-encoding

— Hugh Allen
fonte

Usando clipbrd.exe(consulte mydigitallife.info/2008/11/06/… ), você pode ver o que está na área de transferência. O que isso te dá?

— Arjan

@ Arjan van Bentem: me dá exatamente o mesmo lixo que recebo ao colar no Bloco de Notas.

— Hugh Allen

Algum detalhe sobre o formato? Estou em um Mac, mas presumo que o Windows dirá se algo é uma imagem ou texto e, para o texto, talvez também revele algo sobre a codificação?

— Arjan

Para o exemplo do Manual da TV: mesmo problema no Adobe Reader 8.1.2 em um Mac, mas não há problemas ao usar a Visualização do Mac para copiar ou pesquisar texto. Suas propriedades do documento mostram "Codificação: personalizada" para as fontes (consulte img.skitch.com/20100318-827uckkb5i326eta291f3qig3u.png ). Outros documentos PDF mostrar coisas como "Codificação: Ansi" ou "romano" e não tenho problemas em Adobe Reader em um Mac (como adobe.com/education/pdf/type_primer.pdf rendimentos img.skitch.com/20100318-tbyjrny9bsg684eqhr7b3au7fb.png )

— Arjan #

1

Além disso, o pdftextonline.com não pode buscar o texto no Manual da TV nem no documento Phonedisc (não tentou os outros). Mas o envio para o Gmail e, em seguida, ver como HTML faz trabalhos para a TV Manual (como prévia não tem problemas com esse documento) ...

— Arjan

3

Foxit Reader , talvez?

Por que vale a pena, eu verifiquei apenas o PDF é ligada ao com o Safari 4.0.4 no Mac OS X 10.6.2 e enquanto não é algum Engrish , o PDF torna perfeitamente sem qualquer "lixo" na tela. Talvez você esteja tendo problemas com Unicode (mais comuns no Windows que no Mac OS)?

— Alex
fonte

O lixo não está na tela - está na área de transferência quando copio um texto. O que acontece quando você tenta?

— Hugh Allen

@Hugh: Características is É uma televisão em cores com controle remoto. 􏰃 100 programas de bandas VHF, UHF ou canais a cabo podem ser predefinidos. Can Pode sintonizar canais a cabo. 􏰃 Controlar a TV é muito fácil pelo seu sistema acionado por menus. Has Possui três soquetes Euroconnector para dispositivos externos (como computador, vídeo, videogame, conjunto de áudio etc.)

— Alex

@Hugh: As balas não estão copiando corretamente, mas o resto é. Em que seção / página / parágrafo especificamente você está tendo um problema e tentarei fazer isso?

— Alex

Tudo isso. Estou usando o Adobe Reader para Windows. Acabei de atualizar para a versão mais recente que não ajudou. +1 obrigado pela informação. Eu acho que o Adobe Reader tem um bug não compartilhado pelo equivalente do OSX.

— Hugh Allen

4

Eu tentei o Foxit Reader e ele tem o mesmo problema. Seu instalador também é muito intrusiva, querendo instalar uma barra de ferramentas, modificar sua página inicial etc :(

— Hugh Allen

3

A maneira mais simples de contornar isso é abrir o arquivo em uma versão recente do Google Chrome com o plug-in de leitura de PDF incorporado . Em seguida, você pode usar o recurso de pesquisa do Chrome para encontrar texto e copiar e colar funciona corretamente.

— acatalept
fonte

2

Para o exemplo do Manual da TV : mesmo problema no Adobe Reader 8.1.2 em um Mac, mas não há problemas ao usar a Visualização do Mac para copiar ou pesquisar texto. Além disso, enviá-lo para uma conta do Gmail e escolher "Exibir" e "HTML simples" revela o texto. Mas o Adobe Reader não gosta.

Suas propriedades do documento mostram "Codificação: Personalizada" para as fontes. Outro documento mostra coisas como "Encoding: Ansi" ou "Roman" e não possui problemas no Preview nem no Adobe Reader em um Mac:

insira a descrição da imagem aqui

No entanto, os exemplos de Leadtek e Swann também apresentam problemas na Visualização em um Mac e no Gmail, e ambos mostram "Encoding: Identity-H". O teste do Phonedisc também falha, com "Codificação: Personalizada".

Confuso e não consistente, mas em alguns fóruns da Adobe , encontrei a seguinte explicação para mais um exemplo que mostra "Codificação: Personalizada" (ênfase minha):

Depois de examinar o PDF, verifica-se que não há informações de codificação utilizáveis (nem no PDF nem nos dados da fonte incorporada) para derivar o significado dos caracteres / glifos exibidos nas páginas do documento.

As fontes atualmente são todas incorporadas, mas de maneira que todas as informações de codificação foram removidas. Este é um exemplo típico de um PDF que é sintaticamente totalmente compatível com a especificação do PDF, mas onde informações importantes sobre o significado do texto foram jogadas fora durante o processo de criação do PDF. Tanto quanto posso dizer, seria muito difícil recuperar as informações de codificação.

Isso não explica por que o Mac's Preview (e aparentemente Infix também) pode lidar com alguns dos exemplos quando o Adobe Reader falha, mesmo com "Encoding: Custom". Talvez a Visualização não tenha problemas quando a fonte exata estiver presente no próprio computador? Ou talvez seja apenas adivinhar uma codificação, que funciona para alguns, mas não para todos os documentos?

Qualquer que seja a causa: se a passagem pelo Google Docs ou Gmail não funcionar, talvez a solução mais fácil (mas longe de fácil) seja realmente salvar como TIFF e depois fazer OCR . Serviços como o Evernote podem fazê-lo em tempo real (faz OCR em imagens; duvido que faça OCR em PDF).

— Arjan
fonte

-1

O download do arquivo 1 falhou para mim, arquivo 2 que eu poderia abrir com o xpdf, um visualizador de pdf rápido e de código aberto. Eu acho que ele não pode lidar com formulários, mas para texto puro e gráfico eu prefiro pelo seu rápido tempo de inicialização.

— Usuário desconhecido
fonte

1

A questão não era sobre "abrir" os PDFs ou "abrir com tempo de inicialização rápido". Em vez disso, tratava-se de ser incapaz de copiar trechos de texto das pastas renderizadas. Portanto, sua resposta provavelmente é boa, mas não se encaixa nessa pergunta.

— Kurt Pfeifle

-2

Infelizmente, isso não pode ser ajudado. Na verdade, os documentos PDF não contêm letras, mas contêm formas de letras. Em outras palavras, em vez de ler uma carta e desenhá-la na tela, o Adobe Reader como qualquer outro aplicativo de leitura de PDF simplesmente desenharia os gráficos vetoriais codificados no arquivo.

No entanto, alguns leitores de PDF vêm com um software que permite analisar a forma e recuperar o texto usando o reconhecimento de texto. Funciona da mesma forma que se você digitalizasse um papel de texto impresso e usasse um software como o ABBYY FineReader para convertê-lo novamente em texto, mas devido à infinita alta qualidade dos resultados de desenhos vetoriais, normalmente são muito melhores do que para documentos digitalizados.

Alguns documentos podem ser protegidos contra a conversão em texto enganando o Adobe Reader. Por exemplo, as letras podem ser desenhadas em várias formas sobrepostas, de maneira que visualmente ainda tenham a mesma aparência, enquanto o software de reconhecimento de texto não reconhecerá o texto. Seu documento é um exemplo dessa proteção.

Uma maneira seria imprimir o documento em uma imagem e permitir que o software de reconhecimento de texto o reconhecesse. Uma resolução mais alta para a imagem melhorará a qualidade. Este método, no entanto, não é realmente útil.

— Sergiy Belozorov
fonte

2

Na verdade, os documentos PDF não contêm letras - isso não é verdade para a maioria dos documentos não digitalizados; consulte en.wikipedia.org/wiki/Portable_Document_Format#Text

— Arjan

Obrigado. Informação interessante. Sempre achei que não há informações sobre texto em PDF. No entanto, parece que o documento fornecido por Alexander não possui texto incorporado. Ou também é possível que a fonte usada nele tenha uma codificação estranha de caracteres, ou seja, eles não correspondam à codificação ASCII típica.

— Sergiy Belozorov 18/03/10

2

Como eu poderia ter copiado o texto do PDF se fossem apenas formas? Você está parcialmente certo - não é rasterizado no PDF (a menos que seja de uma fonte digitalizada), mas os dados de texto estão incluídos. No entanto, as fontes (geralmente) também são incorporadas, permitindo que o texto incluído seja renderizado em vetor.

— Alex