Convertendo DJVU para PDF


40

Desejo converter um documento DJVU em um documento PDF, separando e preservando a camada de texto e as imagens , mantendo a estrutura da DJVU. Como posso fazer isso no Ubuntu?

(Eu usarei o Caliber para converter para ePub / Mobi, portanto, se houvesse um plug-in Caliber para todo esse processo, seria perfeito para mim!)

Nota1: Imprimir no Evince, exportar do DJview ou qualquer outra coisa usando o pacote ddjvu , não são soluções adequadas, pois descartam a camada de texto, salvando apenas imagens.

Nota2 : O uso do DJVULibre parece extrair apenas a camada de texto e as imagens não são extraídas . Da mesma forma, copiar o texto "manualmente" perde a estrutura do documento e as figuras.

Respostas:


38

Método 1

Basta usar o DJView e exportar como PDF

  1. Goto Synaptic Package Manager
  2. Instale o DJview4
  3. Execute o DJview (Aplicativos - Gráficos - DJView4)
  4. Abra o seu documento .djvu
  5. : Menu - Exportar como: PDF

Método 2

Abra o arquivo djvu no evince
Selecione print ----> print to file
altere .ps para .pdf e clique em print

Método 3

  1. Goto Synaptic Package Manager
  2. Instalar

    djvulibre-bin libdjvulibre21 okular-extra-backends evince libevdocument3 libevview3

  3. Ir para o terminal e escrever

     sudo apt-get install libtiff-tools
    
  4. Vá para o diretório em que o arquivo djvu está presente. Clique com o botão direito do mouse. Vá para a opção "Abrir no terminal". Clique nisso. Um terminal será aberto.

  5. Nesse terminal, escreva

    ddjvu -format=tiff file_name.djvu file_name.tiff
    tiff2pdf -j -o file_name.pdf file_name.tiff
    

Método 4

Há também um conversor online de DjVu para PDF


@Ashu Tem certeza de que isso recupera as fotos?
Hayd

Sim, o método 1 e 2 funcionou para mim. Não tentei para 3 e .4
Ashu

@ Aku é extrair as imagens ou simplesmente copiar a página inteira? (isso faz sentido?)
Hayd

Você tentou algum método? experimentá-lo e ver se ele funciona
Ashu

2
Não (recupera as imagens ou o texto).
Hayd

17

Aqui está uma maneira, que exigiria algumas ferramentas não tão comuns:

  1. ocrodjvu
  2. pdfbeads , que possui requisitos próprios que podem ser encontrados pelo Google

Podemos usar o djvu2hocrcomando (do ocrodjvupacote) para extrair a camada de texto oculta do arquivo DjVu (não faz OCR ou similar, apenas extrai a camada de texto com geometria), ou seja:

djvu2hocr -p 10 sample.djvu | sed 's/ocrx/ocr/g' > pg10.html

sed intervenção corrige nomes de classe na saída hOCR (que é apenas um arquivo HTML simples)

Agora extraímos a página do DjVu para o formato TIFF com:

ddjvu -format=tiff -page=10 sample.djvu pg10.tif

para que terminemos com estes arquivos na pasta de trabalho:

sample.djvu
pg10.html
pg10.tif

É aqui que pdfbeadsentra o jogo, e nós simplesmente executamos:

pdfbeads -o pg10.pdf

esse programa bacana cuida de tudo o que está dentro dessa pasta (arquivos HTML e TIFF com o mesmo nome de base) e produz um arquivo PDF de saída com alguns subprodutos:

sample.djvu
pg10.html
pg10.tif
pg10.jbig2
pg10.pdf
pg10.sym

que é idêntico ao arquivo DjVu de entrada e possui uma camada de texto dentro:

insira a descrição da imagem aqui

Resumo dos comentários:

Os longos comentários abaixo discutem a representação de imagens menores da página de documento do DjVu como objetos separados, o que não é possível com facilidade porque a página de documento do DjVu é apenas uma imagem com camada de texto opcional, sem "informações" sobre imagens menores como objetos separados. Se o documento DjVu tiver imagens coloridas, elas geralmente serão colocadas na camada de fundo; nesse caso, o usuário pode tirar proveito de ferramentas como ddjvu(extrair apenas a camada de fundo) e imagemagick(cortar automaticamente) para gerar apenas imagens em vez de tela inteira, mas não pode ser automatizado para criar saída em PDF

Outra abordagem mais saudável, porém mais lenta, é o uso de ferramentas regulares da GUI do OCR. gscan2pdf(> 1.0) é sugerido como possível candidato para Linux PC


Estou correto ao pensar que isso não extrai os dados individuais da imagem, mas apenas a imagem da página inteira?
Hayd

O que você quer dizer com "dados de imagem individuais" quando se refere à estrutura do arquivo DjVu?
Zetah 17/04

se ele pode cortar as imagens para fora do documento como imagens menores colocados em cima do PDF (por exemplo, para que eles pudessem exportar para HTML)
Hayd

Não existe essa definição na estrutura do arquivo DjVu. A imagem acima do exemplo no documento original do DjVu é "colocada" na camada / máscara do primeiro plano, juntamente com a imagem dos caracteres, e há uma camada de texto separada que foi extraída conforme explicado. Se o documento DjVu tiver imagens coloridas, ele será colocado na camada de plano de fundo em toda a página (no arquivo DjVu composto comum). Embora seja compreensível que você espere que as imagens na página de documento do DjVu sejam objetos separados, eles não são - veja a página de documento do DjVU como imagem única com camada de texto opcional, é basicamente isso.
Zetah 18/04

1
@zetah - as informações extras que você forneceu nos comentários devem ser realmente adicionadas à resposta, pois fornecem informações valiosas sobre o posicionamento da imagem na estrutura e o que você esperaria ao extrair.
fossfreedom

4

Existe o djvu2pdf, mas ele depende do ghostscript, portanto pode ser outra opção de impressão. Eu ainda sugiro que você dê uma olhada, caso seja mais inteligente do que eu estou dando crédito.

Não está nos repositórios, mas você pode fazer o download de uma deb no site dos fabricantes: http://0x2a.at/s/projects/djvu2pdf

** Insira aqui um aviso obrigatório sobre o download / instalação de itens externos aos repositórios **


1
Receio que o djvu2pdf use o ddjvu para exportar para PDF, que exporta imagens sem texto.
hayd 31/05

4

Usando o DJVULibre , é possível extrair a camada de texto através do terminalcomando:

djvutxt myfile.djvu > myfile-ocr.txt ou djvused myfile.djvu -e 'print-pure-txt' > myfile.txt

(ambos fazem a mesma coisa e foram encontrados aqui )

A formatação requer algum esforço (já que muitos símbolos não são convertidos corretamente) e as imagens não são recuperadas .


Isso é bom para converter livros sem imagens no formato DJVU, mas não para documentos com fotos. Esta é a solução atual para mim no momento e a única a extrair o texto. Uma maneira de preservar a formatação e as fotos seria muito preferida!
Hayd


0

A maneira mais fácil: use o gscan2pdf para importar o djvu, depois faça o OCR com o tesseract e, finalmente, salve-o como um pdf. O texto do OCR no pdf pode ser um pouco diferente do djvu original, e a conversão pode demorar um pouco, mas esse método é fácil e funciona.


1
Oi, para tornar isso uma resposta mais útil, você pode dar um pouco mais de detalhes sobre onde obter e usar o gscan2pdf e o tesseract.
precisa saber é o seguinte

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.