Preciso de arquivos PDF em texto para que eu possa pesquisá-los em massa a partir da linha de comando. Existe algum conversor para Ubuntu, OBSD ou distribuição similar?
Talvez post relacionado, OCR com o ubuntu aqui .
pdftotext= pdfcat.
Preciso de arquivos PDF em texto para que eu possa pesquisá-los em massa a partir da linha de comando. Existe algum conversor para Ubuntu, OBSD ou distribuição similar?
Talvez post relacionado, OCR com o ubuntu aqui .
pdftotext= pdfcat.
Respostas:
Você tem muitas opções!
pdftotextdo poppler já foi mencionado.
Existe um programa Haskell chamadopdf2line que funciona bem.
calibre 's ebook-convertprograma de linha de comando (ou calibre em si) é outra opção; ele pode converter PDF para texto sem formatação ou outro formato de e-book (RTF, ePub), na minha opinião, gera melhores resultados que o pdftotext, embora seja consideravelmente mais lento.
ebook-convert file.pdf file.txt
O AbiWord pode converter entre todos os formatos que conhece da linha de comando e, pelo menos, opcionalmente, possui um plug-in de importação de PDF:
abiword --to=txt file.pdf
Outra opção é podofotextextractda biblioteca de ferramentas PDF podofo. Eu realmente não tentei isso.
Se você combinar as duas ferramentas Ghostscript, pdf2pse ps2asciiainda terá outra opção.
Posso pensar em mais alguns métodos, mas deixarei por enquanto. ;)
pdftotextfornece resultados mais precisos do que ebook-converte é muito rápido. ebook-converté lento.
pdftotextcom -layoutopção de pedras! calibrerequer mais de 600mb para instalar! Isso é loucura)
Você pode converter PDFs em texto na linha de comando com o pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage).
Você pode usar Recoll
(Ubuntu: recoll ; OpenBSD: sem porta, mas existe um para o FreeBSD .) Para pesquisar dentro de vários tipos de documentos de texto formatados, incluindo PDF. Há uma GUI e ela cria um índice automaticamente sob o capô. Ele usa pdftotextpara converter PDF em texto.
O Acrobat Reader (pelo menos a versão 9 no Linux) possui um recurso limitado de pesquisa de vários arquivos (você pode pesquisar em todos os arquivos em um diretório).
O pdftotext provavelmente é o que você está procurando: http://en.wikipedia.org/wiki/Pdftotext , a menos que o texto que você deseja extrair esteja realmente sob uma forma gráfica, o que não é tão comum nos documentos em PDF.
O gPDFText converte o conteúdo do ebook PDF em texto ASCII, reformatado para parágrafos de linhas longas. Funciona para mim e possui uma interface gráfica.
gPDFTextpode ser obtido, como pode ser instalado e como seria usado para responder à pergunta do OP.