Estou procurando uma ferramenta de script offline que torne um arquivo PDF pesquisável existente executando o OCR nele, substituindo o arquivo não pesquisável original pela versão pesquisável e que possa ser executado sem supervisão.
Por exemplo, www.pdfscannerapp.com - faz exatamente o que eu preciso, mas é apenas uma interface gráfica do usuário - não programável.
Estou ciente de que o Evernote torna os arquivos PDF pesquisáveis, mas eles permanecem pesquisáveis apenas quando estão dentro do Evernote.
Não estou procurando um OCR perfeito, mesmo um OCR moderadamente aceitável é bom, mas eu preferiria um pequeno utilitário em vez de um pacote de software volumoso.
(Estou ciente de uma pergunta semelhante, mas diferente, sobre o AD: Procurando software para digitalizar ou converter em PDF pesquisável e assinável - no entanto, não preciso assinar ou preencher PDFs, e minha exigência é que a solução seja programável)
EDITAR:
1) Vários utilitários permitem a extração estruturada de texto; no entanto, para ser extraído, o texto deve estar lá; Refiro-me principalmente a PDFs que contêm bitmaps agrupados, como é o caso de PDFs simples gerados por scanners.
2) Não estou necessariamente procurando uma solução gratuita e ficaria mais do que feliz em pagar por um bom utilitário que apenas faça o que eu preciso, mas não estou procurando aplicativos volumosos com um milhão de recursos que incluem um recurso de OCR, mas cujo custo não justifica comprá-los apenas para a funcionalidade OCR.
3) Como mencionado acima, não estou procurando um OCR perfeito, apenas um OCR moderadamente aceitável. Infelizmente, na minha experiência, o tesseract está realmente abaixo desse limite. Defino um OCR "moderadamente aceitável" que pode, por exemplo, OCR uma conta de serviço público para que pelo menos o número da conta (número do cliente) seja reconhecido corretamente.
EDIT: "programável por script" ou "automatizável", ou seja, capaz de ser acionado automaticamente e executado automaticamente sem a necessidade humana de entrada.