Bom OCR grátis com GUI para corrigir erros? (para Windows)

Eu usei o SimpleOCR , que tem uma boa interface gráfica para corrigir erros. Infelizmente, cometemos muitos erros! (e sofre outros bugs e limitações)

Por outro lado, o Tesseract é mais preciso, mas não possui GUI.

Minha pergunta é: existe um programa gratuito de OCR para Windows que tenha uma interface gráfica agradável e uma baixa taxa de erros? Quero destacar as palavras suspeitas (por incerteza do OCR, não apenas a verificação ortográfica) e mostrar a palavra original (bitmap) enquanto estou editando a palavra OCR semelhante à do SimpleOCR.

O código-fonte aberto seria o melhor, seguido pelo freeware, e depois trial / demo / crippleware muito atrás.

Captura de tela do SimpleOCR mostrando a GUI para corrigir erros

windows gui ocr

— Hugh Allen
fonte

possível duplicata do software OCR gratuito

— Sathyajith Bhat

@Sathya: meus requisitos específicos o diferenciam dessa questão.

— Hugh Allen

Não é exatamente gratuito, mas você já olhou para o Microsoft Office? Ele vem com OCR. (Procure o recurso "Microsoft Office Document Imaging" na instalação.)

— Vivelin

@horsedrowner: Eu apenas tentei. Sua precisão é comparável ao Tesseract, mas requer um arquivo TIFF com a configuração de DPI apropriada ou não funciona e não possui interface para corrigir erros de OCR.

— Hugh Allen

@Hugh Allen: Faz? Funcionou muito bem quando me deparei com a função de menu de contexto no OneNote 2007. E eu estava usando um arquivo de imagem aleatória copy-colado de um site ...

— Vivelin

Respostas:

Você já tentou o gimagereader , uma interface gráfica para o Tesseract?

— ukanth
fonte

Eu apenas tentei (no Windows) e ele não funciona para mim - o processo é encerrado imediatamente sem uma mensagem de erro :( De qualquer forma, olhando para as capturas de tela, não parece destacar a palavra que você está editando. -lo?

— Hugh Allen

OCRopus :

O software é parcialmente baseado no Tesseract, o melhor mecanismo de OCR de código aberto disponível no momento. Embora o projeto seja lançado no final do próximo ano e seja usado no projeto de digitalização de livros do Google, a equipe tem alguns aplicativos interessantes em mente:

uma interface de serviço da web

OCR em PDF, câmera e tela

integração com as ferramentas de pesquisa na área de trabalho: Beagle, Spotlight, Google Desktop

O OCRopus (tm) é um sistema avançado de análise de documentos e OCR, que inclui análise de layout conectável, reconhecimento de caracteres conectável, modelagem estatística de linguagem natural e recursos multilíngues.

O mecanismo OCRopus é baseado em dois projetos de pesquisa: um reconhecedor de caligrafia de alto desempenho desenvolvido em meados da década de 90 e implantado pelo departamento do Censo dos EUA e novos métodos de análise de layout de alto desempenho.

O OCRopus is development é patrocinado pelo Google e destina-se inicialmente a esforços de conversão de documentos de alto rendimento e alto volume. Esperamos que também seja um excelente sistema de OCR para muitas outras aplicações. Ligações:

GOCR

O GOCR é um programa de reconhecimento óptico de caracteres (OCR), desenvolvido sob a licença pública GNU. Ele converte imagens digitalizadas de texto em arquivos de texto. Joerg Schulenburg iniciou o programa e agora lidera uma equipe de desenvolvedores. O GOCR pode ser usado com diferentes front-ends, o que facilita a portabilidade para diferentes sistemas operacionais e arquiteturas. Ele pode abrir muitos formatos de imagem diferentes e sua qualidade vem melhorando diariamente.

Ligações:

GOCR

— Krazy_Kaos
fonte

Algum deles tem uma GUI decente para acompanhá-los?

— Hugh Allen

Editado, responda sua pergunta .... mas eu diria: "Não, eles não", mas ouvi dizer que o abiword suporta OCRopus ( arstechnica.com/open-source/news/2007/08/… )

— Krazy_Kaos

+1 para adicionar imagens a resposta e também para mini-revisão dos dois programas oferecidos ...

— Kurt Pfeifle

Também existe o TOPOCR (também conhecido como SnapReader), que contém o corretor ortográfico pós-processamento para 11 idiomas:

O SnapReader pode ser usado para criar suas próprias notas pesquisáveis a partir de praticamente qualquer imagem de documento. Ou você pode usá-lo como uma ferramenta de criação e criar seu próprio conteúdo editável usando seu scanner ou câmera e salvar os resultados em HTML ou PDF. O SnapReader também pode transformar texto em áudio de alta qualidade usando Audrey. Portanto, não apenas você pode usar seu scanner ou câmera para capturar documentos, como também pode usar seu music player portátil ou smartphone para "lê-los".

imagem

— harrymc
fonte