Eu tenho vários milhares de páginas de páginas de livros digitalizados. Cada página é salva individualmente como um JPG. A escrita é clara, mas as fontes variam e as páginas incluem figuras e ilustrações.
Preciso criar uma lista de todas as palavras que aparecem em cada arquivo JPG. Existe uma ferramenta de linha de comando para digitalizar uma imagem listando as palavras que aparecem? Não precisa ter uma digitalização perfeita, apenas uma estimativa.