Existem bons programas de OCR de caligrafia de código aberto (bem, gratuitos)?


16

O título pede tudo. Tenho diante de mim uma tarefa de entrada de dados que não me deixa muito entusiasmado: 50 a 100 páginas de logs manuscritos de logoff / logon.

O formato dos logs pode ajudar. As páginas são particionadas em linhas e colunas claramente delineadas (13r x 6c com uma linha de cabeçalho extra digitada). Ajudando-me ainda mais é que três colunas são relacionadas a data / hora (data, tempo limite, entrada de tempo). Além disso, os dados em duas das colunas (recurso e nome) são mais ou menos enumerados, de modo que, por exemplo, o nome "Smith" possa aparecer repetidamente na coluna de nome, sempre com a mesma caligrafia. A última coluna, "Notes", é de forma livre, mas se eu pudesse automatizar as 6 colunas anteriores, não me importaria de inserir o Notes manualmente.

Alguma sugestão? (Além de 'começar a digitar'.)

PS Se houver um site SE melhor para perguntar isso, me avise, perguntarei lá.


1
Você pode postar uma varredura de amostra do log?
Martin Thompson

1
Não se preocupe com o Captricity - eles solicitam seu email e enviam um "link email" sem um link.

E é isso que acontece quando você se confunde com os termos "código aberto" e "gratuito" ... ... de que uma empresa está tentando obter vantagem no mercado, dando a ideia de que "código aberto" é igual a "ruim" ».
Joan

Respostas:



4

Se você tem menos de 10 páginas, o Captricity pode fazer isso de graça.

Fora da caixa, não há boas soluções de código aberto para o que você está procurando. As soluções pagas custam muito para licenciar. Isso se baseia em nossa experiência na construção de um serviço de OCR de caligrafia na Captricity . Usamos o tesseract na produção, mas apenas como um voto combinado à inteligência humana (crowdsourcing) para oferecer um alto nível de qualidade.

Espero que ajude!

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.