Desde hoje eu sei: a melhor coisa para a extração de texto de PDFs é o TET, o kit de ferramentas de extração de texto . TET faz parte da família de produtos PDFlib.com.
PDFlib.com é a empresa de Thomas Merz. Caso você não reconheça o nome dele: Thomas Merz é o autor da "Bíblia PostScript e PDF".
A primeira encarnação do TET é uma biblioteca . Provavelmente, é possível fazer tudo o que o Budda006 queria, incluindo informações posicionais sobre todos os elementos da página. Ah, e também pode extrair imagens. Ele recombina imagens fragmentadas em pedaços.
O pdflib.com também oferece outra encarnação dessa tecnologia, o plug-in TET para Acrobat . E a terceira encarnação é o PDFlib TET iFilter . Essa é uma ferramenta independente para as áreas de trabalho dos usuários. Ambos são gratuitos (como na cerveja) para uso particular e não comercial.
E é realmente poderoso. Muito melhor do que a extração de texto da própria Adobe. Ele extraiu texto para mim, onde outras ferramentas (incluindo a Adobe) cospem apenas lixo.
Acabei de testar a ferramenta autônoma de desktop, e o que eles dizem em suas páginas é verdadeiro. Tem uma linha de comando muito boa. Alguns dos meus arquivos de teste PDF "problemáticos" que a ferramenta manipulou para minha total satisfação.
De agora em diante, isso será minha recomendação para todos os requisitos de extração de texto em PDF sofisticados e desafiadores.
TET é simplesmente incrível. Ele detecta tabelas. Nas tabelas internas, identifica células que abrangem várias colunas. Ele identifica as linhas da tabela e o conteúdo de cada célula da tabela separadamente. Lida muito bem com hifenizações: remove hífens e restaura palavras completas. Ele suporta idiomas não ASCII (incluindo CJK, árabe e hebraico). Ao encontrar ligaduras, restaura os caracteres originais ...
De uma chance.