Existe algum tipo de PDF para conversor de texto?

21

Preciso de arquivos PDF em texto para que eu possa pesquisá-los em massa a partir da linha de comando. Existe algum conversor para Ubuntu, OBSD ou distribuição similar?

Talvez post relacionado, OCR com o ubuntu aqui .

— otto
fonte

3

Pergunta semelhante no Superusuário

— Gilles 'SO- stop be evil'

Se for um PDF "real" (feito de texto, etc.), o pdftotext é a sua melhor aposta. Se for uma imagem, sua melhor aposta é algumas coisas de OCR.

— vonbrand

1

Eu sempre uso pdftotext= pdfcat.

— Isomorphismes

pergunta semelhante em askubuntu

— Trevor Boyd Smith

22

Você tem muitas opções!

pdftotextdo poppler já foi mencionado.

Existe um programa Haskell chamadopdf2line que funciona bem.

calibre 's ebook-convertprograma de linha de comando (ou calibre em si) é outra opção; ele pode converter PDF para texto sem formatação ou outro formato de e-book (RTF, ePub), na minha opinião, gera melhores resultados que o pdftotext, embora seja consideravelmente mais lento.

ebook-convert file.pdf file.txt

O AbiWord pode converter entre todos os formatos que conhece da linha de comando e, pelo menos, opcionalmente, possui um plug-in de importação de PDF:

abiword --to=txt file.pdf

Outra opção é podofotextextractda biblioteca de ferramentas PDF podofo. Eu realmente não tentei isso.

Se você combinar as duas ferramentas Ghostscript, pdf2pse ps2asciiainda terá outra opção.

Posso pensar em mais alguns métodos, mas deixarei por enquanto. ;)

— frabjous
fonte

ebook-convert da calibre ... você viu o que isso faz com as ligaduras? Bleargh. vamos colocar desta maneira: não é um programa muito eficaz. O pdftotext é muito mais fiel. Eu nunca descobri nenhum erro em sua saída.

— Ixtmixilix

1

Você pode usar menos para visualizar arquivos PDF como texto. Invoca um pré-processador, ou seja, lesspipe, para invocar o pdftotext ou ferramentas similares.

— Daniel Näslund 13/03/12

pdftotextfornece resultados mais precisos do que ebook-converte é muito rápido. ebook-converté lento.

— Amit Patel

pdftotextcom -layoutopção de pedras! calibrerequer mais de 600mb para instalar! Isso é loucura)

— Stalinko 15/11/2018

9

Você pode converter PDFs em texto na linha de comando com o pdftotext (Ubuntu: poppler-utils ; OpenBSD: xpdf-utilspackage).

Você pode usar Recoll (Ubuntu: recoll ; OpenBSD: sem porta, mas existe um para o FreeBSD .) Para pesquisar dentro de vários tipos de documentos de texto formatados, incluindo PDF. Há uma GUI e ela cria um índice automaticamente sob o capô. Ele usa pdftotextpara converter PDF em texto.

O Acrobat Reader (pelo menos a versão 9 no Linux) possui um recurso limitado de pesquisa de vários arquivos (você pode pesquisar em todos os arquivos em um diretório).

— Gilles 'SO- parar de ser mau'
fonte

4

O pdftotext provavelmente é o que você está procurando: http://en.wikipedia.org/wiki/Pdftotext , a menos que o texto que você deseja extrair esteja realmente sob uma forma gráfica, o que não é tão comum nos documentos em PDF.

— jlliagre
fonte

Encontre exemplos de pdftotext em PDF para ferramenta de linha de comando de código-fonte aberto e como converter todos os arquivos PDF em texto (dentro de uma pasta) com um comando? .

— Kenorb

-1

O gPDFText converte o conteúdo do ebook PDF em texto ASCII, reformatado para parágrafos de linhas longas. Funciona para mim e possui uma interface gráfica.

— Charles
fonte

3

Olá e bem-vindo ao site! Gostamos de que as respostas sejam um pouco mais abrangentes aqui. Por exemplo, você pode adicionar onde gPDFTextpode ser obtido, como pode ser instalado e como seria usado para responder à pergunta do OP.

— terdon