Como uma imagem de uma página digitalizada pode ser automaticamente dividida em palavras semelhantes ao reCaptcha?

-1

Eu tenho uma imagem de uma página de um livro e quero dividi-la em pequenas palavras separadas. Existe uma maneira de fazer isso?

image-processing

— webmagnets
fonte

Você está falando sobre OCR, como você marcou isso, ou cortando a imagem em imagens de palavras individuais?

— fixer1234

Cortando a imagem em imagens de palavras individuais. Não sabia o que marcar.

— webmagnets

Supondo que as linhas estejam igualmente espaçadas, você poderia automatizar a divisão de cada linha, provavelmente usando um software de imagem comum que faz operações em lote (estou pensando no Irfanview, mas você não indica seu sistema operacional). Separar cada palavra é mais complicado. Você pode fazer algo como copiar a página para uma camada e usar um filtro para desfocar muito as palavras até o ponto em que elas são bolhas escuras. Em seguida, selecione com base em um intervalo de cores que inclui os blobs de palavras, mas não os intervalos mais leves entre eles. Aplique a seleção à camada original. Não tenho certeza como você salvaria cada um em um arquivo separado, no entanto.

— fixer1234

Instale um scanner móvel de documentos em seu celular. Você pode capturar a página desejada com a câmera do dispositivo móvel. O scanner móvel irá reconhecer para você e recuperar o texto para você. Você pode editar o texto e salvá-lo. Você acha que está tudo bem para você?

— Johnson15
fonte

Se você leu os comentários sobre a questão, você teria notado que OP não significa OCR, mas cortando a imagem em pequenos pedaços (cada um contendo uma palavra). Assim, sua solução não é aplicável.

— zagrimsan