Os PDFs geralmente contêm fontes sem mapeamentos explícitos para Unicode, impedindo-nos de extrair o texto correto deles - maldição, Adobe!
Preciso processar PDFs em lotes em um sistema Linux. Eu tenho vários exemplos aqui com linhas hifenizadas, mas para as quais nenhuma ferramenta que tentei pode identificar os hífens; os resultados sempre contêm muitas meias-palavras quebradas.
Existe uma maneira de contribuir com o mapeamento de caracteres ausentes, em vez de eliminar os símbolos indefinidos?