Visão geral
O que você procura são ferramentas como o Scan Tailor e o não papel que são capazes de limiar , remoção de pontos e remoção de ruído . Ambas as ferramentas funcionam com imagens em vez de arquivos PDF, mas você pode converter facilmente entre os diferentes formatos que esses aplicativos usam e PDF usando as ferramentas descritas no final desta resposta.
ScanTailor
Você pode encontrar um tutorial em vídeo aqui . Uma documentação mais extensa está disponível no wiki oficial . Você provavelmente estará mais interessado na página sobre modo de saída em preto e branco e configurações de filtro .
Desaperte
Ainda não trabalhei unpaper
comigo mesmo. Pelo que entendi, ele tem muito mais recursos do que o ScanTailor, mas também é muito mais difícil de dominar.
Não há interface GUI e você terá que confiar em opções de linha de comando para concluir seu trabalho. Por outro lado, isso significa que as conversões com unpaper
podem ser facilmente automatizadas usando scripts.
Você pode encontrar alguns exemplos de script relacionados à conversão de uma digitalização para preto e branco e à remoção do plano de fundo aqui .
Algumas ferramentas úteis ao trabalhar com papel não-impresso e ScanTailer
Não tenho tempo suficiente para escrever um tutorial completo sobre o ScanTailor e o unpaper¹, mas aqui estão algumas dicas sobre a conversão entre .pdf
e os formatos de imagem suportados por essas ferramentas:
Você pode usar pdfimages
para converter documentos PDF em .ppm
arquivos de página única , os quais podem ser lidos unpaper
.
Exemplo de uso:
pdfimages *.pdf ./extracted-images
O ScanTailor não aceita .ppm
arquivos como entrada. Você precisará convertê-los para outro formato como o .png
primeiro sem perdas . mogrify
fora do imagemagick
conjunto de ferramentas pode fazer isso por você.
Exemplo de uso:
mogrify -format png *.ppm
O formato de saída do ScanTailor e o não papel são .tiff
arquivos de página única . Para convertê-los novamente .pdf
, sugiro usar tiffcp
e tiff2pdf
.
Exemplo de uso:
tiffcp *.tiff all.tiff
tiff2pdf -F -p A4 -z -o Document.pdf all.tiff
Instalação
Este comando instalará todas as ferramentas mencionadas acima:
sudo apt-get install scantailor unpaper poppler-utils libtiff-tools
¹: Para quem estiver lendo isso, sinta-se à vontade para compilar uma resposta mais extensa com base no ScanTailor e / ou no papel.