O software é parcialmente baseado no Tesseract, o melhor mecanismo de OCR de código aberto disponível no momento. Embora o projeto seja lançado no final do próximo ano e seja usado no projeto de digitalização de livros do Google, a equipe tem alguns aplicativos interessantes em mente:
- uma interface de serviço da web
- OCR em PDF, câmera e tela
- integração com as ferramentas de pesquisa na área de trabalho: Beagle, Spotlight, Google Desktop
O OCRopus (tm) é um sistema avançado de análise de documentos e OCR, que inclui análise de layout conectável, reconhecimento de caracteres conectável, modelagem estatística de linguagem natural e recursos multilíngues.
O mecanismo OCRopus é baseado em dois projetos de pesquisa: um reconhecedor de caligrafia de alto desempenho desenvolvido em meados da década de 90 e implantado pelo departamento do Censo dos EUA e novos métodos de análise de layout de alto desempenho.
O OCRopus is development é patrocinado pelo Google e destina-se inicialmente a esforços de conversão de documentos de alto rendimento e alto volume. Esperamos que também seja um excelente sistema de OCR para muitas outras aplicações.
Ligações:
O GOCR é um programa de reconhecimento óptico de caracteres (OCR), desenvolvido sob a licença pública GNU. Ele converte imagens digitalizadas de texto em arquivos de texto. Joerg Schulenburg iniciou o programa e agora lidera uma equipe de desenvolvedores. O GOCR pode ser usado com diferentes front-ends, o que facilita a portabilidade para diferentes sistemas operacionais e arquiteturas. Ele pode abrir muitos formatos de imagem diferentes e sua qualidade vem melhorando diariamente.