Filtrando imagens meio "tonificadas" para processamento de OCR

10

Eu tenho um material PDF digitalizado no qual desejo adicionar a camada de texto oculto, para poder indexar o documento. Usei o dispositivo de saída tiff em preto e branco ghostscript (tiffg4) para extrair páginas como imagens tiff, e aqui está um exemplo de como elas são:

insira a descrição da imagem aqui

O processamento desta imagem com o tesseract não produz bons resultados.
A alteração do DPI de saída do ghostscript (600, 300, 150, 96) mostra que a imagem em 96 DPI fornece o melhor resultado do tesseract, mas ainda não é satisfatória.

Agora, pensei em pedir conselhos sobre qual filtro melhoraria essa imagem para o processamento de OCR.

Eu poderia usar imagemagick ou numpy / scipy / ndimage

image-processing ocr

— zetah
fonte

9

O que você realmente precisa é provavelmente de alguma operação morfológica, como dilatação seguida de erosão. Isso é chamado de operação de fechamento . Pode estar no seu caso - apenas a própria dilatação pode ser boa.

Havia uma pergunta semelhante feita anteriormente - que pode ajudar com outros aspectos.

conversão de imagem monocromática (preto e branco de 1 bit)

Como reconstruo o texto de uma imagem usando apenas operações morfológicas?

— Dipan Mehta
fonte

2

você pode remover isso usando um filtro passa-baixo. isso é feito no espaço de frequência ou apenas leva a (diferença de) gaussiana da imagem.

— Christoph Rackwitz
fonte