file
informa "Texto ASCII estendido não ISO" porque detecta que isso é:
- provavelmente um arquivo de "texto" devido à falta de caracteres de controle (valores de bytes 0 a 31) que não sejam quebras de linha;
- “ASCII estendido” porque existem caracteres fora do intervalo ASCII (valores de bytes ≥128);
- “Não ISO” porque existem caracteres no intervalo de 128 a 159 (a ISO 8859 reserva esse intervalo para caracteres de controle).
Você precisa descobrir em qual codificação esse arquivo parece estar. Você pode tentar o reconhecimento automático do Enca . Pode ser necessário movê-lo na direção certa, informando em que idioma o texto é.
enca x.txt
enca -L polish x.txt
Para converter o arquivo, passe a -x
opção:enca -L polish x.txt -x utf8 >x.utf8.txt
Se você não pode ou não deseja usar o Enca, pode adivinhar a codificação manualmente. Um pouco de olhar ao redor me disse que este é um texto em polonês e as palavras são trwały, stały, usuważ, então estamos procurando uma tradução onde ³
→ ł
e æ
→ ż
. Isto parece latino-2 ou latino-10 ou, mais provavelmente (dado “não-ISO” CP1250 que você está vendo como latin1 . Para converter o arquivo para UTF-8, você pode usar recode ou iconv .
recode CP1250..utf8 <x.txt >x.utf8.txt
iconv -f CP1250 -t UTF-8 <x.txt >x.utf8.txt