Existe uma maneira simples para imprimir todos os caracteres não-ASCII e os números de linha em que eles ocorrem em um arquivo usando um utilitário de linha de comando, como grep
, awk
, perl
, etc?
Quero alterar a codificação de um arquivo de texto de UTF-8 para ASCII, mas antes de fazer isso, desejo substituir manualmente todas as instâncias de caracteres não ASCII para evitar alterações inesperadas de caracteres efetuadas pela rotina de conversão de arquivos.
LC_ALL=C grep -n -P [$'\x80'-$'\xFF']
onde o primeiro bit desativa o agrupamento.