Como extrair imagem do arquivo PDF

49

Atualmente, uso o leitor de PDF da Foxit e baixei recentemente uma imagem da Internet, mas ela está dentro de um arquivo PDF. Como extraio esta imagem?

O sistema operacional é o Windows 7.

— studiohack
fonte

sua extração da mais alta qualidade será extrair para qualquer formato em que a imagem já esteja armazenada no pdf. (pelo menos eu acho que é como as imagens-in-pdfs trabalho.)

— quack quixote

4

A maneira mais rápida, se você não precisar de uma resolução de pixel original da imagem, basta pressionar os botões ALT e Print Screen. Em seguida, escolha colar onde quiser a imagem.

A outra maneira de preservar a resolução é abrir o PDF em um programa de edição de imagens, como o Adobe Photoshop, e trabalhar com ele.

— UserSuUserDo
fonte

11

A abertura de um documento PDF no Photoshop faz com que a caixa de diálogo 'Rasterize Generic PDF Format' apareça, portanto a resolução não pode ser preservada. Testado com PS7. As versões mais recentes do Photoshop são diferentes?

— precisa saber é o seguinte

11

como você disse, [alt] + [prnscr] não preserva a resolução original de pixels (usa qualquer resolução que sua tela / monitor atual use).

— Kurt Pfeifle

11

@studiohack, @UserSuUserDo: você não apenas perderá a resolução original se usar [alt] + [prnscr], como também obterá a janela completa do visualizador de PDF como uma imagem. Isso pode ser 'bom o suficiente' para muitos casos de uso. Mas às vezes você deseja que o gráfico seja incorporado apenas na página PDF. Aqui pdfimages.exevem a calhar.

— Kurt Pfeifle

11

Ou use a ferramenta de recorte incorporada no W7 para capturar a área desejada.

— Moab

70

Se você baixar o XPDF para Windows ( aqui ), encontrará alguns arquivos .exe dentro. Você pode executá-los sem "instalação". Use pdfimages.exeassim:

pdfimages.exe -help

Isso exibe a tela de ajuda.

pdfimages.exe ^
    -j ^
    c:\path\to\your.pdf ^
    c:\path\to\where\you\want\images\prefix\

Isso extrai todos os JPEGs como prefixo-00N.jpg e todas as outras imagens como prefixo-00N.ppm (Portable PixMap).

[ Editar por ComFreek: observe a barra à direita no caminho de destino, o que é importante se você não deseja extrair todas as imagens para o diretório pai.] -
{ Editar por KurtPfeifle: Não concordo com o comentário do ComFreek, mas deixe cabe aos leitores testar e descobrir as diferenças nos resultados. Meu parâmetro original, sem usar uma barra à direita, como ..\prefixprefixo dos nomes das imagens usadas para os arquivos extraídos.}

pdfimages.exe ^
    -j ^
    -f 11 ^
    -l 13 ^
    c:\path\to\your.pdf ^
    c:\path\to\where\you\want\images\prefix\

O mesmo que antes, mas limita a extração da imagem às páginas 11 ('f' = primeiro) a 13 ('l' = último).

Atualizar:

Enquanto isso, prefiro a versão de Popplerpdfimages - especialmente porque ela adquiriu esse novo recurso: adicione -listà linha de comando para listar (não extrair) as imagens contidas no PDF, além de algumas de suas propriedades. Exemplo:

pdfimages -list -f 7 -l 8 ct-magazin-14-2012.pdf

  número da página tipo largura altura cor comp bpc enc interp ID do objeto
  -------------------------------------------------- -------------------
     7 0 imagem 581 838 rgb 3 8 jpeg no 39 0
     7 1 imagem 4 4 rgb 3 8 imagem no 40 0
     7 2 imagem 314 332 rgb 3 8 jpx no 44 0
     7 3 imagem 358 430 rgb 3 8 jpx no 45 0
     7 4 imagem 4 4 rgb 3 8 imagem no 46 0
     7 5 imagem 4 4 rgb 3 8 imagem no 47 0
     7 6 imagem 4 6 rgb 3 8 imagem no 48 0
     7 7 imagem 596 462 rgb 3 8 jpx no 49 0
     7 8 imagem 4 6 rgb 3 8 imagem no 50 0
     7 9 imagem 4 4 rgb 3 8 imagem no 51 0
     7 10 imagem 8 10 rgb 3 8 imagem no 41 0
     7 11 imagem 6 6 rgb 3 8 imagem no 42 0
     7 12 imagem 113 27 rgb 3 8 jpx no 43 0
     8 13 imagem 582 839 cinza 1 8 jpeg no 2080 0
     8 14 imagem 344 364 cinza 1 8 jpx no 2079 0

Observe novamente: esta versão do pdfimagesé o de Poppler (a partir XPDF que não (ainda) apoiar esta nova funcionalidade?), E a versão deve ser v0.20.2 ou mais recente.

— Kurt Pfeifle
fonte

11

@harlev: Google para ImageMagick . Possui uma ferramenta de linha de comando que pode converter qualquer coisa em qualquer coisa chamada convert. Disponível para Linux, Windows, MacOS X e o que você tem. Mais fácil caso de uso para você: convert some.ppm some.jpeg.

— precisa

3

Nota: O XPDF não é tão ativamente mantido quanto a biblioteca poppler que o extraiu há algum tempo. O Poppler também fornece pdfimages, e algumas pessoas podem preferir usá-lo.

— MvG

11

@BurhanKhalid: binários pré-construídos aqui: sourceforge.net/projects/poppler-win32

— Kurt Pfeifle

2

@KurtPfeifle Infelizmente, esses arquivos não contêm exe.

— 22414 Chris

3

Eu sei que isto é antiga, mas só queria compartilhar, se alguém está à procura de binários do Windows que você pode obtê-lo aqui blog.alivate.com.au/poppler-windows

— Aivan Monceller

8

Você pode tentar importar o PDF para o Inkscape e trabalhar a partir daí. O Inkscape abrirá apenas uma página por vez, mas fornecerá controle total sobre o conteúdo da página. Você poderá extrair e manipular gráficos vetoriais do PDF com bastante facilidade.

No entanto, se você deseja extrair imagens rasterizadas do PDF, tenho certeza que o pdfimagesXPDF é mais fácil (mas você ainda pode tentar usar o Inkscape depois de aprender a extrair imagens incorporadas de arquivos SVG ).

— Denilson Sá Maia
fonte

O GIMP ( gimp.org ) é outra ferramenta de design gráfico que pode importar e manipular PDFs. No entanto, não tenho certeza de como os recursos do GIMPs contrastam com os do Inkscape.

— Codificadorworks 11/11

@coderworks: o GIMP rasterizará a página PDF importada em uma determinada resolução. Em outras palavras, é um pouco melhor do que usar "Print Screen". O Inkscape, por outro lado, preservará os dados vetoriais originais, bem como as imagens rasterizadas originais.

— Denilson Sá Maia

5

Sem instalar nenhum software, você pode alternar para o PDF-XChange Viewer (selecione Versão portátil ) que já possui essa capacidade

exporta todas as páginas ou páginas selecionadas como imagem
formato de saída: PNG, JPG, TIFF, BMP
escolha DPI, nível de compactação, escala de cinza
pode salvar várias páginas como TIFF de várias páginas

^{Clique para ampliar}

Esteja ciente de que, enquanto esse método converte páginas PDF inteiras em imagens, o método explicado a partir do @Laurenz usando o Sumatra PDF é superior se você deseja extrair imagens de uma página PDF com conteúdo misto (imagem + texto) para obter apenas a imagem.

— nixda
fonte

2

@MarkSeemann Eu não posso seguir. "Sem instalar nenhum software" significa, neste contexto, que há uma versão portátil disponível. O software portátil não pôde ser "instalado" por definição. Você acabou de baixar, extrair e iniciá-lo.

— Nixda 1/11

3

O fato de você precisar "Escolher o DPI" anula o objetivo. Você está redimensionando imagens rasterizadas (matriz de pixels) e qualquer redimensionamento de uma imagem rasterizada resulta em perda de qualidade e informação.

— Anthony

converter arquivos PPM para png ou jpeg?

— Kiquenet

4

O Sumatra PDF é um leitor de PDF de código aberto rápido e leve que pode copiar imagens diretamente para a área de transferência, sem qualquer rasterização.

— Laurenz
fonte

3

O MuPDF é um novo visualizador de PDF multiplataforma (desktop e móvel) lançado sob licença AGPL. É mantido pelas mesmas pessoas do Ghostscript .

Ele contém uma ferramenta de linha de comando para extrair imagens de um PDF:

mutool extract [options] file.pdf [object numbers]

O comando extrair pode ser usado para extrair imagens e arquivos de fonte de um PDF. Se nenhum número de objeto for fornecido na linha de comando, todas as imagens e fontes serão extraídas.

-p password
       Use the specified password if the file is encrypted.

-r     Convert images to RGB when extracting them.

— Denilson Sá Maia
fonte

2

use pdftocairofrom poppler toolkit. Pode extrair e converter imagens de pdf em qualquer formato desejado. Sempre gera imagens e nunca gera ppm ou dados como esse. O comando a seguir oculta as páginas pdf em imagens jpg dele:

pdftocairo.exe -jpeg "my.pdf" "my"

Você pode obtê-lo aqui para windows: http://blog.alivate.com.au/poppler-windows/

Também está disponível no Linux.

— MSS
fonte

Este comando NÃO EXTRATO imagens incorporadas em um PDF (conforme solicitado pelo OP). Em vez disso, CONVERTE páginas PDF completas em formatos de imagem. Esta resposta não se encaixa na pergunta.

— Kurt Pfeifle

1

http://www.sumnotes.net/ é uma ferramenta online para extrair notas, destaques e imagens. Usei-o extensivamente na universidade para minha tese e fiquei realmente satisfeito.

— Timothy
fonte

Comercial com avaliação gratuita limitada. Também é on-line, o que significa que a privacidade não pode ser garantida!

— Anthony

-1

normalmente extraio a imagem incorporada com 'pdfimages' na resolução nativa e depois uso o convert do ImageMagick para o formato necessário:

$ pdfimages -list fileName.pdf
$ pdfimages fileName.pdf fileName   # save in .ppm format
$ convert fileName-000.ppm fileName-000.png

isso gera o melhor e menor arquivo de resultado.

Nota: Para imagens incorporadas em JPG com perda, você tinha que usar -j:

$ pdfimages -j fileName.pdf fileName   # save in .jpg format

Na plataforma Win pouco fornecida, era necessário fazer o download de um binário 'poppler-util' recente (0,37, 2015) em: http://blog.alivate.com.au/poppler-windows/

ATUALIZAÇÃO: No recente "poppler-util" 0.50+ (2016), o pdfunite tem a opção "-all" para extrair bitmap compactado sem perdas como .png e bitmap compactado com perdas como .jpg, portanto, é simples:

$ pdfimages -all fileName.pdf fileName

extraia sempre do PDF o melhor conteúdo de qualidade possível

— Valerio
fonte

Foi anteriormente na resposta de Kurt Pfeifle.

— Daniel.neumann