Redefinindo mapeamentos Unicode em texto PDF

Os PDFs geralmente contêm fontes sem mapeamentos explícitos para Unicode, impedindo-nos de extrair o texto correto deles - maldição, Adobe!

Preciso processar PDFs em lotes em um sistema Linux. Eu tenho vários exemplos aqui com linhas hifenizadas, mas para as quais nenhuma ferramenta que tentei pode identificar os hífens; os resultados sempre contêm muitas meias-palavras quebradas.

Existe uma maneira de contribuir com o mapeamento de caracteres ausentes, em vez de eliminar os símbolos indefinidos?

— Aaron Brick
fonte

Coloque o comentário acima no corpo da pergunta ( edite a pergunta). Qualquer informação relevante deve estar lá, não em um comentário.

— Kamil Maciorowski

O exemplo de PDF está codificado corretamente: inclui tabelas de fonte para unicode e, se eu tentar copiar e colar mupdf, o hífen em Хлебникова no segundo parágrafo se tornará U + 00AD SOFT HYPHEN. Portanto, deve ser possível juntar palavras, se desejado, com um pouco de pós-processamento.

Infelizmente, para muitas ferramentas PDF, o suporte a Unicode está quebrado.

É difícil identificar espaços em PDFs, porque o formato PDF não descreve espaços, apenas descreve onde os glifos são colocados na página. Portanto, o algoritmo de adivinhação de espaço no ebook-convert parece subótimo, mas isso não tem nada a ver com a codificação.

AFAIK, mupdfnão inclui uma ferramenta para extrair lotes de texto, mas o Google encontra, por exemplo, esse código de terceiros. Eu não tentei.

— dirkt
fonte