Eu tenho um arquivo em UTF-8 que contém textos em vários idiomas. Muitos são nomes de pessoas. Preciso convertê-lo para ASCII e preciso que o resultado pareça o mais decente possível.
Existem várias maneiras de abordar a conversão de uma codificação mais ampla para uma mais estreita. A transformação mais simples seria substituir todos os caracteres não ASCII por algum espaço reservado, como '_'. Se eu sei o idioma em que o arquivo está escrito, há possibilidades adicionais, como romanização.
Que ferramenta Unix ou biblioteca de linguagem de programação disponível no Unix pode me proporcionar uma conversão decente (com o melhor esforço) de UTF-8 para ASCII?
A maior parte do texto está em idiomas europeus, baseados no tipo latino.
iconv
e tr
, existe o Unidecode . Eu não estou familiarizado com isso, mas pode fazer o que você quiser, se você puder usar o Python.