O ato de extrair texto de imagens é chamado OCR
e o Ubuntu tem uma página wiki dedicada ao OCR . A partir dessa página:
Ferramentas OCR disponíveis
Os repositórios do Ubuntu Universe contêm as seguintes ferramentas de OCR:
- gocr - Um OCR da linha de comando
- fuzzyocr - plugin spamassassin para verificar anexos de imagem
- libhocr0 - OCR hebraico
- ocrad - programa de reconhecimento óptico de caracteres
- ocrfeeder - Análise de layout de documentos e sistema óptico de reconhecimento de caracteres
- ocropus - análise de documentos e sistema de OCR
- tesseract-ocr
Os repositórios multiversos do Ubuntu também contêm:
- cuneiforme - sistema OCR multilíngue
Alguns pacotes estão desatualizados, mas novos não oficiais podem ser encontrados no Alex_P PPA (PPA adicionando código: ppa: alex-p / notesalexp). Se você nunca usou um PPA, verifique como adicionar software a partir de um PPA .
editar: Como mostrado no comentário, o Clara OCR também existe, mas ficou duro no Hardy e seu site tem 2009 como última atualização.