Respostas:
O seguinte deve funcionar:
$ sed 's/\(.\)/\1\n/g' text.txt | sort | uniq -c
Primeiro, inserimos uma nova linha após cada caractere, colocando cada caractere em sua própria linha. Então nós resolvemos isso. Em seguida, usamos o comando uniq para remover as duplicatas, prefixando cada linha com o número de ocorrências desse caractere.
Para classificar a lista por frequência, canalize tudo isso sort -nr
.
sed
fazer isso, mas a solução Python de Jacob Vlijm funcionou bem para mim.
A solução de Steven é boa e simples. Não é tão eficiente para arquivos muito grandes (arquivos que não cabem confortavelmente em cerca de metade da sua RAM) devido à etapa de classificação. Aqui está uma versão awk. É também um pouco mais complicado, porque ele tenta fazer a coisa certa por alguns caracteres especiais (novas linhas, '
, \
, :
).
awk '
{for (i=1; i<=length; i++) ++c[substr($0,i,1)]; ++c[RS]}
function chr (x) {return x=="\n" ? "\\n" : x==":" ? "\\072" :
x=="\\" || x=="'\''" ? "\\" x : x}
END {for (x in c) printf "'\''%s'\'': %d\n", chr(x), c[x]}
' | sort -t : -k 2 -r | sed 's/\\072/:/'
Aqui está uma solução Perl com o mesmo princípio. Perl tem a vantagem de poder classificar internamente. Além disso, isso não contará corretamente uma nova linha extra se o arquivo não terminar em um caractere de nova linha.
perl -ne '
++$c{$_} foreach split //;
END { printf "'\''%s'\'': %d\n", /[\\'\'']/ ? "\\$_" : /./ ? $_ : "\\n", $c{$_}
foreach (sort {$c{$b} <=> $c{$a}} keys %c) }'
Uma versão lenta, mas relativamente amiga da memória, usando ruby. Cerca de uma dúzia de MB de RAM, independentemente do tamanho da entrada.
# count.rb
ARGF.
each_char.
each_with_object({}) {|e,a| a[e] ||= 0; a[e] += 1}.
each {|i| puts i.join("\t")}
ruby count.rb < input.txt
t 20721
d 20628
S 20844
k 20930
h 20783
... etc
sed 's/\(.\)/\1\'$'\n/g' text.txt