Eu tenho vários documentos digitalizados em pdf e quero poder pesquisá-los. Como eu posso fazer isso?
Essencialmente, eu tenho que OCR o pdf e depois misturar o texto extraído em um novo pdf. Tentei, sem sucesso, várias soluções diferentes (incluindo as encontradas em Adicionando informações de OCR a um PDF ).
- pdfocr (que me fornece este problema: https://github.com/gkovacs/pdfocr/issues/7 )
- pdfsandwich (cujo centro de software diz que é um pacote ruim e que não devo instalá-lo)
- O OCRfeeder (no centro de software) exporta muito bem, mas não reage ao exportar para pdf.
- O Gscan2pdf exporta uma imagem totalmente preta (mas pesquisável), conforme relatado nesta discussão .
- Eu não acho que o visualizador do Pdfxchange possa lidar com ocr on the fly em arquivos com mais de 500 páginas.
Existe um pacote de software que não conheço? Ou um script que faz isso?
pdf2searchablepdf
. Depende tesseract
. Isso funciona bem. Super fácil de usar. Veja aqui. askubuntu.com/a/1187881/327339