OK ... Eu acho que pdflatex
é a peça que falta aqui.
O OP disse que investigou poppler-utils
e pdftk
. Deixe-me adicionar a isso pdfimages
. Estes, juntamente com pdflatex
são os pedaços de uma solução.
pdfimages -f 4 -l 20 -j -png target.pdf imageroot
No código de exemplo acima, pdfimages
analisa as páginas 4 a 20 target.pdf
e extrai todas as imagens em arquivos com nomes começando imageroot
.
poppler-utils
fornece pdftotext
. Eu recomendo a -layout
opção que faz um ótimo trabalho mantendo o documento legível.
pdftotext -layout $1.pdf $1.txt
A objeção do OP à imagemagick
solução oferecida pelo pidosaurus é que uma imagem não possui texto extraível. Com os utilitários que descrevi, o OP agora terá todas as imagens e todo o texto extraído, e os números de páginas e o conteúdo serão retidos pela -layout
opção. O OP pode identificar a página correta do texto e inseri-la em um .tex
arquivo que termina com uma %includegraphics
diretiva e se refere à imagem de substituição pelo nome do arquivo. Você então faz pdflatex
isso e acaba com um novo .pdf de página única para inserir no restante do documento pdftk
. Se você soubesse onde no texto da página original residia a imagem, poderá %includegraphics [h]
obtê-la exatamente no lugar certo.