...
...
LÍNGUAS
Atualmente, existem pacotes de idiomas disponíveis para os seguintes
línguas:
ara (árabe), aze (Azerbauijani), bul (búlgaro), gato (catalão), ces
(Checo), chi_sim (chinês simplificado), chi_tra (chinês tradicional),
chr (cherokee), dan (dinamarquês), dan-frak (dinamarquês (fraktur)), deu
(Alemão), ell (grego), eng (inglês), enm (inglês antigo), epo
(Esperanto), est (estoniano), fin (finlandês), fra (francês), frm (antigo
Francês), glg (galego), heb (hebraico), hin (hindi), hrv (croata),
hun (húngaro), ind (indonésio), ita (italiano), jpn (japonês), kor
(Coreano), lav (letão), lit (lituano), nld (holandês), nem
(Norueguês), pol (polonês), por (português), ron (romeno), rus
(Russo), slk (eslovaco), slv (esloveno), sqi (albanês), spa
(Espanhol), srp (sérvio), swe (sueco), tam (tamil), tel (telugu),
tgl (tagalo), tha (tailandês), tur (turco), ukr (ucraniano), vie
(Vietnamita)
Para usar um pacote de idiomas não padrão chamado foo.traineddata, defina
Variável de ambiente TESSDATA_PREFIX para que o arquivo possa ser encontrado em
TESSDATA_PREFIX / tessdata / foo.traineddata e forneça o Tesseract
argumento -l foo.