Estou usando o OSX e gostaria de poder converter arquivos PDF em texto.
Eu gostaria de um aplicativo gratuito para fazer isso, pois tenho certeza de que deve haver alguns.
Estou usando o OSX e gostaria de poder converter arquivos PDF em texto.
Eu gostaria de um aplicativo gratuito para fazer isso, pois tenho certeza de que deve haver alguns.
Respostas:
Aqui estão as etapas que eu usei para instalar e usar o xpdf via Homebrew.
Instale as dependências do Homebrew:
xcode-select --install
Instale o Homebrew no site:
/usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
Faça o que for solicitado para concluir a instalação do Homebrew.
Verifique se o Homebrew está feliz e funcionando conforme as especificações.
brew doctor
Em seguida, instale o xpdf e suas dependências:
brew install Caskroom/cask/xquartz
brew install xpdf
Por fim, use pdftotext, um pacote que vem com o pacote xpdf:
pdftotext Some_Document.pdf Some_Document.txt
O primeiro nome do arquivo é um PDF existente; o segundo é o destino. Os resultados foram muito melhores do que com uma versão (reconhecidamente antiga) do Adobe Acrobat. Edit: Novas versões (2019) do Adobe Acrobat mostraram resultados igualmente ruins.
xquartznão é necessário para as ferramentas do console xpdf. Além disso, há a popplerbifurcação do xpdfque parece muito mais ativamente mantido: github.com/scraperwiki/scraperwiki-python/issues/...
Múltiplos métodos.
Use documentos do Google (você precisará de uma conta do Google)
Use o Automator (algum trabalho é necessário)
Você pode usar o Automator para criar um fluxo de trabalho que possa extrair texto de PDFs e salvá-lo como um documento de texto ou RTF.

ou um aplicativo da App Store, por exemplo, PDF para texto
xpdf que eu instalei com portas:
port install xpdf
contém:
xpdf-pdftotext
Ele faz o que você deseja para qualquer arquivo PDF proveniente de um arquivo de texto (e não de uma imagem):
xpdf-pdftotext PDF_file text_file
A versão atual do Adobe Reader (11.0.09) possui um item "Salvar como outro" no menu Arquivo.
Uma das opções é texto .
O aplicativo é gratuito e faz um trabalho decente produzindo arquivos de texto. Todas as imagens no novo documento serão perdidas no formato .txt.
Eu acho que você deve ser capaz de copiar e colar o texto em outro documento. Para selecionar todo o texto
Observe que, se você tentar fazer isso, e não houver texto colado, apenas um monte de linhas em branco, tente imprimir primeiro o PDF em um novo PDF, por exemplo,
Agora tente o processo acima com este novo PDF. Trabalhou para mim!
PS: Se você possui o Microsoft Word, poderá abrir seu PDF no Word
O seguinte script python produzirá o texto de um documento PDF para um arquivo .txt. (Observação: não há garantia de que o texto esteja necessariamente em ordem legível humana 'lógica', devido à maneira como os dados são mantidos no formato PDF.)
O script criará arquivos de texto para qualquer arquivo PDF fornecido como argumento na linha de comando (por exemplo pdf2txt.py myPDF.pdf), ou você pode usar a ação "Executar script de shell" do Automator, configurando o tipo de shell para python e Passar a entrada para "Como argumentos" . Em seguida, você pode usá-lo como uma Ação rápida ou DropApp.
#!/usr/bin/python
# coding: utf-8
import os, sys
from Quartz import PDFDocument
from CoreFoundation import (NSURL, NSString)
NSUTF8StringEncoding = 4
def pdf2txt():
for filename in sys.argv[1:]:
inputfile =filename.decode('utf-8')
shortName = os.path.splitext(filename)[0]
outputfile = shortName+" text.txt"
pdfURL = NSURL.fileURLWithPath_(inputfile)
pdfDoc = PDFDocument.alloc().initWithURL_(pdfURL)
if pdfDoc :
pdfString = NSString.stringWithString_(pdfDoc.string())
pdfString.writeToFile_atomically_encoding_error_(outputfile, True, NSUTF8StringEncoding, None)
if __name__ == "__main__":
pdf2txt()
if pdfDocdeclaração por print(pdfDoc.string()).