Preciso de arquivos PDF em texto para que eu possa pesquisá-los em massa a partir da linha de comando. Existe algum conversor para Ubuntu, OBSD ou distribuição similar?
Talvez post relacionado, OCR com o ubuntu aqui .
pdftotext
= pdfcat
.
Preciso de arquivos PDF em texto para que eu possa pesquisá-los em massa a partir da linha de comando. Existe algum conversor para Ubuntu, OBSD ou distribuição similar?
Talvez post relacionado, OCR com o ubuntu aqui .
pdftotext
= pdfcat
.
Respostas:
Você tem muitas opções!
pdftotext
do poppler já foi mencionado.
Existe um programa Haskell chamadopdf2line
que funciona bem.
calibre 's ebook-convert
programa de linha de comando (ou calibre em si) é outra opção; ele pode converter PDF para texto sem formatação ou outro formato de e-book (RTF, ePub), na minha opinião, gera melhores resultados que o pdftotext, embora seja consideravelmente mais lento.
ebook-convert file.pdf file.txt
O AbiWord pode converter entre todos os formatos que conhece da linha de comando e, pelo menos, opcionalmente, possui um plug-in de importação de PDF:
abiword --to=txt file.pdf
Outra opção é podofotextextract
da biblioteca de ferramentas PDF podofo. Eu realmente não tentei isso.
Se você combinar as duas ferramentas Ghostscript, pdf2ps
e ps2ascii
ainda terá outra opção.
Posso pensar em mais alguns métodos, mas deixarei por enquanto. ;)
pdftotext
fornece resultados mais precisos do que ebook-convert
e é muito rápido. ebook-convert
é lento.
pdftotext
com -layout
opção de pedras! calibre
requer mais de 600mb para instalar! Isso é loucura)
Você pode converter PDFs em texto na linha de comando com o pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utils
package).
Você pode usar Recoll
(Ubuntu: recoll ; OpenBSD: sem porta, mas existe um para o FreeBSD .) Para pesquisar dentro de vários tipos de documentos de texto formatados, incluindo PDF. Há uma GUI e ela cria um índice automaticamente sob o capô. Ele usa pdftotext
para converter PDF em texto.
O Acrobat Reader (pelo menos a versão 9 no Linux) possui um recurso limitado de pesquisa de vários arquivos (você pode pesquisar em todos os arquivos em um diretório).
O pdftotext provavelmente é o que você está procurando: http://en.wikipedia.org/wiki/Pdftotext , a menos que o texto que você deseja extrair esteja realmente sob uma forma gráfica, o que não é tão comum nos documentos em PDF.
O gPDFText converte o conteúdo do ebook PDF em texto ASCII, reformatado para parágrafos de linhas longas. Funciona para mim e possui uma interface gráfica.
gPDFText
pode ser obtido, como pode ser instalado e como seria usado para responder à pergunta do OP.