Como extrair caracteres Unicode do arquivo .png?

Eu quero extrair caracteres Unicode de arquivos .jpg e .png.

Eu tento fazer isso usando o seguinte comando:

tesseract 1.png output.txt

Esse comando funciona para caracteres ingleses, mas quando eu tento para Unicode como Hindi, Marathi ou Devanagari Script, ele produz a saída errada.

Existe alguma opção para extrair o script Unicode (Devanagari) para o arquivo de texto usando o OCR?

ocr tesseract-ocr

— Madhav Nikam
fonte

Existe alguma opção para extrair o script Unicode?

Quando eu tento para Unicode como Hindi, Marathi ou Devanagari Script, ele produz a saída errada.

Parece que apenas Hindi é suportado fora da caixa.

Você precisa usar para usar o -l lang opção:

tesseract 1.png output.txt -l hin

Você pode treinar o tesseract para reconhecer outras linguagens como Marathiou Devanagari.

Vejo Como usar as ferramentas fornecidas para treinar o Tesseract 3.0x para um novo idioma

TESSERACT (1) Página do manual

OPÇÕES

...

-l lang

O idioma a ser usado. Se nenhum for especificado, o inglês é assumido. Vários idiomas podem ser especificados, separados por mais caracteres. O Tesseract usa códigos de idioma ISO 639-2 de 3 caracteres. (Veja IDIOMAS)

...

LÍNGUAS

Atualmente, existem pacotes de idiomas disponíveis para os seguintes   línguas:

ara (árabe), aze (Azerbauijani), bul (búlgaro), gato (catalão), ces   (Checo), chi_sim (chinês simplificado), chi_tra (chinês tradicional),   chr (cherokee), dan (dinamarquês), dan-frak (dinamarquês (fraktur)), deu   (Alemão), ell (grego), eng (inglês), enm (inglês antigo), epo   (Esperanto), est (estoniano), fin (finlandês), fra (francês), frm (antigo   Francês), glg (galego), heb (hebraico), hin (hindi), hrv (croata),   hun (húngaro), ind (indonésio), ita (italiano), jpn (japonês), kor   (Coreano), lav (letão), lit (lituano), nld (holandês), nem   (Norueguês), pol (polonês), por (português), ron (romeno), rus   (Russo), slk (eslovaco), slv (esloveno), sqi (albanês), spa   (Espanhol), srp (sérvio), swe (sueco), tam (tamil), tel (telugu),   tgl (tagalo), tha (tailandês), tur (turco), ukr (ucraniano), vie   (Vietnamita)

Para usar um pacote de idiomas não padrão chamado foo.traineddata, defina   Variável de ambiente TESSDATA_PREFIX para que o arquivo possa ser encontrado em   TESSDATA_PREFIX / tessdata / foo.traineddata e forneça o Tesseract   argumento -l foo.

Fonte TESSERACT (1) Página do manual

— DavidPostill
fonte

grande ..... eu desejo que eles tenham em Bahasa & amp; árabe, bem como a sua linguagem para uso futuro: D

— gumuruh