Eu tenho um PDF de um livro digitalizado.
Eu estou procurando um software livre que irá executar o OCR e, em seguida, fornecer uma opção para salvá-lo como um PDF ou documento novamente.
Existe um?
Eu tenho um PDF de um livro digitalizado.
Eu estou procurando um software livre que irá executar o OCR e, em seguida, fornecer uma opção para salvá-lo como um PDF ou documento novamente.
Existe um?
Respostas:
Você pode baixar o teste de 30 dias do Adobe Acrobat Pro e use a função 'Reconhecimento de texto OCR' ('Document & gt; Reconhecimento de texto OCR & gt; Reconhecer texto usando OCR ...'). Na caixa de diálogo de configurações, escolha 'Imagem pesquisável' como o estilo de saída. Isso manterá a imagem da página, mas incorporará o texto do OCR para que o documento seja pesquisável e permita que o texto seja selecionado, copiado e colado.
Depois de executar o OCR, você precisará confirmar ou corrigir as palavras que o OCR não tem certeza sobre o uso das funções 'Encontrar suspeitas de OCR'.
Se você tem uma Conta do Google, o Google Docs agora inclui a funcionalidade para fazer upload de um arquivo PDF e realizar o OCR nele.
Eu tentei por mim mesmo e isso faz uma boa tentativa em um PDF reconhecidamente bem formatado.
A formatação é praticamente destruída, mas o texto parece sobreviver.
Os seguintes produtos foram encontrados listados na Internet, mas eu não os usei.
OCR Online
OCR Terminal é um serviço de OCR online que executa o caractere óptico Reconhecimento (OCR) no seu scanner imagens e arquivos pdf e processa-los em editável e texto pesquisável documentos.
Free-OCR.com é um OCR on-line gratuito (Optical Character Recognition). Você pode usar isso para executar o OCR em qualquer imagem que você fornece.
Este serviço é gratuito, sem registro necessário. Nós também não precisamos do seu endereço de e-mail.
Basta carregar seus arquivos de imagem. Free-OCR leva um JPG, GIF, TIFF BMP ou PDF ( somente primeira página ). A única restrição é que o as imagens não devem ser maiores que 2 MB, não maior ou maior que 5000 pixels e há um limite de 10 uploads de imagens por hora.
Servidor de Reconhecimento Maestro é comercial, mas tem uma demonstração on-line.
Software grátis
FreeOCR - apenas para imagens.
FreeOCR é um scan & amp; Programa de OCR incluindo o ocre Tesseract livre motor também conhecido como um Tesseract GUI. Inclui um instalador do Windows e é muito simples de usar e suporta tiff de várias páginas, documentos de fax como bem como a maioria dos tipos de imagem, incluindo Tiff comprimido que o Tesseract motor por si só não pode ler. Agora tem Twain digitalização.
pdfsandwich - pdf - & gt; pdf conversor.
O pdfsandwich é uma ferramenta de linha de comando para livros ou periódicos digitalizados por OCR. É capaz de reconhecer o layout da página mesmo para o texto de várias colunas.
Essencialmente, o pdfsandwich é um script wrapper que chama os seguintes binários: convert, cuneiform, gs e hocr2pdf. É conhecido por rodar em sistemas Unix e tem foi testado em Linux e MacOS X. Ele suporta processamento paralelo em sistemas multiprocessadores.
Cuneiforme + hocr2pdf + Ghostscript : Uma solução de código aberto DIY.
Eu postei um responda delineando uma solução envolvendo uma versão do agora open-source Cuneiforme Sistema OCR e hocr2pdf junto com Ghostscript para colocar as páginas em PDF juntas.
Isso foi especificamente para o Linux, mas você também pode obter o Cuneiform e o Ghostscript para Windows. Eu não tenho certeza sobre hocr2pdf ou um equivalente, no entanto.
Instalar Imagemagick . Abra uma janela ou terminal cmd:
convert myfile.pdf myfile-%02d.jpg
A saída será 1 arquivo jpg para cada página em seu pdf, myfile-00.jpg, myfile-01.jpg, etc.
Passe cada imagem através de um programa ocr. Eu não tenho muita experiência com isso, mas parece haver muitas escolhas.
Converta cada página do texto de volta em pdf. Você poderia fazer isso novamente com o imagemagick, mas também há outras maneiras:
convert page-%02d.txt -density 300x300 -compress jpeg final.pdf
Sua solicitação parece ser uma solução complicada para o problema, embora eu possa não entender o problema corretamente. A qualquer custo:
Por que não obter um gravador de PDF que permitirá que você insira os dados diretamente na página em PDF?
Experimentar PDFCubed.com Nada para instalar, tudo é feito online. Você pode enviar seus documentos para serem processados via web, email ou caixa de depósito. Os PDFs e TIFs digitalizados são convertidos em PDFs de texto pesquisáveis e podem ser recuperados via web, email ou caixa de depósito.