Eu tenho um arquivo PDF contendo mapas do prédio em que trabalho, aqui:
http://www.libsys.und.edu/dev/FloorPlans_All.pdf
Os arquivos de origem originais foram perdidos e me pediram para extrair as imagens do mapa, de preferência sem o texto e os ícones que foram sobrepostos em cima deles. Isso provou ser irritantemente difícil.
Até agora, eu tentei os seguintes programas GUI:
- Adobe Reader: permite selecionar o texto, mas não as imagens de fundo
- FoxIt PDF Viewer: deixa-me selecionar texto, mas não as imagens de fundo
- XPDF no Ubuntu 10.10: permite selecionar texto, mas não as imagens de fundo
E também os seguintes programas de linha de comando:
- pdfimages: extrai os ícones indicando banheiros muito bem, mas não as imagens de fundo
- pdftohtml: mesmo que pdfimages, mais ele faz um documento HTML mal marcado
- pdfextract: same as pdfimages
- convert: imagens salvas com sucesso, mas com o texto gravado nelas
Eu até tentei abrir o PDF manualmente em um editor de texto e extrair os objetos de fluxo, colando-os em um novo arquivo e salvando-o com uma extensão .jpg, .png ou .bmp (cada um por sua vez). Considerando o pouco que sei sobre a estrutura interna dos arquivos PDF, não é surpresa que isso não funcionou.
Então ... existe alguma maneira de recuperar as imagens do mapa desta coisa sem ter o texto e os ícones?
qpdf
para converter as partes binárias em ASCII o máximo possível. (2) Use um editor de texto para tornar todo o texto invisível que eu não quero ver na tela ou em impressões (pode ser conseguido facilmente e sem danos à tabela XRef, alternando o sinalizador invisível ). (3) Re-destile o resultado com Ghostscript para reduzir seu tamanho, tanto quanto possível. - Infelizmente, o seu arquivo não está mais disponível para download para demonstrar o procedimento ...