Existem muitos arquivos de texto sem formatação que foram codificados em conjuntos de caracteres variantes.
Quero convertê-los todos para UTF-8, mas antes de executar o iconv, preciso conhecer sua codificação original. A maioria dos navegadores tem uma Auto Detect
opção em codificações, no entanto, não consigo verificar esses arquivos de texto um por um porque há muitos.
Depois de conhecer a codificação original, posso converter os textos por iconv -f DETECTED_CHARSET -t utf-8
.
Existe algum utilitário para detectar a codificação de arquivos de texto sem formatação? NÃO precisa ser 100% perfeito, não me importo se houver 100 arquivos convertidos incorretamente em 1.000.000 de arquivos.
python-chardet
no repositório do universo Ubuntu.