Mas como isso é possível?
Basicamente, um programa executa OCR no arquivo de entrada e, em seguida, coloca uma camada invisível de texto sobre a imagem. Como alternativa, também pode colocar uma camada visível de texto embaixo da imagem, dando o mesmo efeito.
Quando você seleciona algo, a imagem não importa, porque a camada de texto é selecionada.
como isso pode ser criado?
Existem várias maneiras. Como o Acrobat já foi sugerido, adicionarei algumas opções gratuitas (e felizmente você não é obrigado a ter o Windows para usá-las).
Visualizador de PDF-XChange
Este é um programa Windows nativo da Tracker Software . A versão do freeware funciona bem no Wine se você usar a edição de 32 bits em um prefixo de 32 bits; portanto, você pode usá-lo no Windows, macOS e Linux. Nos dois últimos casos, você precisaria do PlayOnMac ou PlayOnLinux, respectivamente.
Aqui está uma foto desta resposta que eu deixei no Ask Ubuntu:
OCRmyPDF
Este é um programa multiplataforma escrito em Python , baseado em Ghostscript, Tesseract e Unpaper. Dos documentos:
O que o OCRmyPDF faz
O OCRmyPDF analisa cada página de um PDF para determinar o espaço de cores e a resolução (DPI) necessários para capturar todas as informações nessa página sem perder o conteúdo. Ele usa o Ghostscript para rasterizar a página e, em seguida, executa no OCR na imagem rasterizada para criar uma "camada" de OCR. A camada é então enxertada de volta no PDF original.
Pode ser facilmente instalado nos derivados Debian e Ubuntu:
apt-get install ocrmypdf
Ou no macOS:
brew tap jbarlow83/ocrmypdf
brew install ocrmypdf
No Windows, você precisaria usar a imagem do Docker. Consulte os documentos oficiais para obter detalhes.
O uso é muito simples e eu sugiro que você use os parâmetros opcionais -d
(deskew) e -c
(clean) para obter melhores resultados. Ele endireitará todas as páginas e limpará pequenos pontos / imperfeições antes de executar o processo de OCR.
Você pode (e deve) fornecer o idioma -l
.
Aqui está um exemplo deste documento distorcido escrito em italiano:
O comando que eu usei foi:
ocrmypdf -l ita -d -c input.pdf output.pdf
Ferramentas online
Existem algumas ferramentas online que fazem o mesmo. Notável, o PDF24 hospeda uma versão gratuita do OCRmyPDF baseada na Web que pode ser usada sem limitações.
Veja também: