A resposta de Ignacio está ótima. Na verdade, seria a primeira coisa na minha lista. Bem, isso e talvez sugerir a pdftohtml
ferramenta que também vem com o poppler, combinada com o pdfreflow, se você quiser remontar o texto em parágrafos, etc. de várias maneiras.)
Aqui estão algumas outras opções também.
A ebook-convert
ferramenta de linha de comando do Caliber , que pode converter .PDFs em texto sem formatação (ou RTF ou em vários formatos de e-books, como ePub, etc.)
pdftxtextract
de Podofo
O Abiword pode ser chamado a partir da linha de comando para converter entre quaisquer formatos que ele possa inserir de / exportar para e, com o plug-in de importação apropriado, isso inclui PDFs:
abiword --to=txt file.pdf
(Para ser justo, acho que o AbiWord e o calibre usam as bibliotecas poppler, mas não sou positivo.)