No Unicode, algumas combinações de caracteres têm mais de uma representação.
Por exemplo, o caractere ä pode ser representado como
- "ä", ou seja, o ponto de código U + 00E4 (dois bytes
c3 a4
na codificação UTF-8) ou como - "ä", ou seja, os dois pontos de código U + 0061 U + 0308 (três bytes
61 cc 88
em UTF-8).
De acordo com o padrão Unicode, as duas representações são equivalentes, mas em diferentes "formas de normalização", consulte UAX # 15: Formulários de Normalização Unicode .
A caixa de ferramentas unix tem todos os tipos de ferramentas de transformação de texto: sed , tr , iconv , Perl. Como posso fazer uma conversão NF rápida e fácil na linha de comando?
perl -MUnicode::Normalization -e 'print NFC(
... er o que vem aqui agora ...