Acabei de ter sucesso (sob 16.04) com pdfocr.rb . Isso está listado no wiki do Ubuntu
Aqui está um ppa, mas o repositório para 16.04 não é atualizado. O script ruby acima do github ainda funciona com o 16.04.
Você pode baixá-lo no Github. Você precisará dos seguintes pacotes instalados:
ruby tesseract-ocr pdftk exactimage
então tornou o pdfocr.rb executável e executou:
./pdfocf.rb -i source.pdf -o output.pdf
Opcionalmente, você pode usar o -l LANG
parâmetro Nesse caso, você precisará instalar o tesseract-ocr-LANG
pacote, onde LANG
está o código de idioma ISO 639-2 de três letras. No momento, você possui 108 idiomas no repo de 16.04.