Eu já vi alguns ebooks / papers aparentemente digitalizados em suas versões em papel, mas o texto dos ebooks / papers pode ser incrivelmente copiado. Suponho que as versões digitalizadas diretamente devam ter sido processadas por algum software de reconhecimento óptico de caracteres.
Então, eu gostaria de saber quais são os softwares de reconhecimento óptico de caracteres recomendados? Especialmente aqueles que são gratuitos ou para o Ubuntu? Se os do Windows forem muito mais superiores, informe-me também.
Estou particularmente interessado nos OCRs que podem aceitar um arquivo PDF digitalizado como entrada e ainda produzir como saída outro arquivo PDF que parece igual ao de entrada, mas com seu texto copiável.
Obrigado e cumprimentos!
Limite um software por resposta
