Eu tenho um material PDF digitalizado no qual desejo adicionar a camada de texto oculto, para poder indexar o documento. Usei o dispositivo de saída tiff em preto e branco ghostscript (tiffg4) para extrair páginas como imagens tiff, e aqui está um exemplo de como elas são:
O processamento desta imagem com o tesseract não produz bons resultados.
A alteração do DPI de saída do ghostscript (600, 300, 150, 96) mostra que a imagem em 96 DPI fornece o melhor resultado do tesseract, mas ainda não é satisfatória.
Agora, pensei em pedir conselhos sobre qual filtro melhoraria essa imagem para o processamento de OCR.
Eu poderia usar imagemagick ou numpy / scipy / ndimage