OK ... Eu acho que pdflatexé a peça que falta aqui.
O OP disse que investigou poppler-utilse pdftk. Deixe-me adicionar a isso pdfimages. Estes, juntamente com pdflatexsão os pedaços de uma solução.
pdfimages -f 4 -l 20 -j -png target.pdf imageroot
No código de exemplo acima, pdfimages analisa as páginas 4 a 20 target.pdfe extrai todas as imagens em arquivos com nomes começando imageroot.
poppler-utilsfornece pdftotext. Eu recomendo a -layoutopção que faz um ótimo trabalho mantendo o documento legível.
pdftotext -layout $1.pdf $1.txt
A objeção do OP à imagemagicksolução oferecida pelo pidosaurus é que uma imagem não possui texto extraível. Com os utilitários que descrevi, o OP agora terá todas as imagens e todo o texto extraído, e os números de páginas e o conteúdo serão retidos pela -layoutopção. O OP pode identificar a página correta do texto e inseri-la em um .texarquivo que termina com uma %includegraphicsdiretiva e se refere à imagem de substituição pelo nome do arquivo. Você então faz pdflatexisso e acaba com um novo .pdf de página única para inserir no restante do documento pdftk. Se você soubesse onde no texto da página original residia a imagem, poderá %includegraphics [h]obtê-la exatamente no lugar certo.