O Evernote faz OCR nas imagens que você salva nele. Existe uma maneira de obter o equivalente em texto completo para uma imagem no Evernote ou o OCR é apenas para pesquisa?
O Evernote faz OCR nas imagens que você salva nele. Existe uma maneira de obter o equivalente em texto completo para uma imagem no Evernote ou o OCR é apenas para pesquisa?
Respostas:
A API do Evernote possui funcionalidade para obter texto e retângulo onde esse texto está presente dentro da imagem. Consulte http://evernote.com/about/developer/api/evernote-api.htm , consulte "Formato XML do Evernote Recognition Index XML" e as funções para recuperá-lo. O problema é que eles não fazem OCR tradicional ... seu algoritmo de OCR pode produzir palavras diferentes para uma "palavra" única na imagem. Tudo o que eles usam é pesquisa, então isso é bom para eles, mas não é bom para usá-lo como um mecanismo de reconhecimento. (Embora eles tenham peso para cada palavra alternativa, talvez você possa usá-la)
Além disso, o Evernote aparentemente não decide que uma imagem em particular é equivalente a exatamente uma palavra - por exemplo, o Evernote não determina que uma imagem em particular seja "pista" e não seja "devida". Em vez disso, ele rastreará os dois, e uma pesquisa por qualquer um retornaria a mesma imagem. Portanto, não há como obter um equivalente em texto completo porque o Evernote não está decidindo qual é o texto completo, apenas o que poderia ser.
O evernote paga uma quantia decente ao criador do ocr-stuff OU pagou uma quantia decente para colocar algo funcionando em conjunto. portanto, duvido muito que eles deixem você obter o texto extraído (+ posicionamento na imagem).
(poderia ser um modelo de negócios, para digitalizar imagens de outras pessoas e fornecer uma boa ocr :))
então, a resposta é: não.
Não tenho certeza de quanta sofisticação você precisa, mas como também uso o Adobe Acrobat, clico com o botão direito do mouse no anexo do Evernote para abrir com o Acrobat.
Em seguida, no Acrobat, selecione "Documento | Reconhecimento de texto OCR" e salve o documento como texto sem formatação.
Isso funciona bem para mim, pois eu só preciso de uma conversão OCR ocasional.
Se você conseguir tirar todas as imagens do Evernote, poderá fazer o OCR com o Google Docs.
Você pode fazer upload de uma pasta de imagens para o Google Docs e convertê-las em Documentos, que conterão a imagem e o texto OCR.
Você pode fazer o download em lote de todos esses documentos como texto sem formatação, o que removerá a imagem.
Se você nomear todas as imagens do Evernote com um hash (por exemplo md5
), será fácil vincular arquivos de texto sem formatação baixados do Google Docs à imagem original.
Estou no Windows e uso o Adobe Acrobat Pro e o Word, e faço o seguinte: