Classificando várias chaves com a classificação Unix

137

Eu tenho arquivos potencialmente grandes que precisam ser classificados por chaves 1-n. Algumas dessas teclas podem ser numéricas e outras não. Este é um arquivo colunar de largura fixa, portanto não há delimitadores.

Existe uma boa maneira de fazer isso com a classificação Unix? Com uma tecla, é tão simples quanto usar '-n'. Eu li a página de manual e procurei no Google brevemente, mas não encontrei um bom exemplo. Como eu realizaria isso?

Nota: Excluí o Perl por causa do potencial de tamanho do arquivo. Seria o último recurso.

linux unix sorting

— Chris Kloberdanz
fonte

Uma ou duas linhas de dados de exemplo seriam realmente úteis para criar uma linha de comando de exemplo. Além disso, as chaves "1-n" significam que você precisa classificar por um número variável de chaves? Fazer isso sem scripting vai ser divertido ...

— Ken Gentil

Eu tenho um wrapper PHP em torno do comando de classificação para ativar o recurso 1-n.

— Chris Kloberdanz

69

Use a -kopção (ou --key=POS1[,POS2]). Pode aparecer várias vezes e cada tecla pode ter opções globais (como npara classificação numérica)

— Ken Gentle
fonte

7

Na página do manual de classificação: "POS é F [.C] [OPTS], onde F é o número do campo e C a posição do caractere no campo; ambos são a origem 1." Consulte a página do manual para obter a documentação completa.

— Adam Rosenfield

49

Veja também a resposta de andras, se você não quiser ficar louco.

— ron

1

Ambos os comentários acima são precisos e aditivos. Obrigado, senhores.

— Ken Gentil

314

Tome cuidado, porém:

Se você deseja classificar o arquivo principalmente pelo campo 3 e, secundariamente, pelo campo 2, deseja o seguinte:

sort -k 3,3 -k 2,2 < inputfile

Não é isso: sort -k 3 -k 2 < inputfile que classifica o arquivo pela cadeia de caracteres desde o início do campo 3 até o final da linha (que é potencialmente exclusivo).

-k, --key=POS1[,POS2]     start a key at POS1 (origin 1), end it at POS2
                          (default end of line)

— andras
fonte

8

Mudança de vida. Obrigado.

— Davidtbernal

2

Ops! Agora eu tenho que corrigir um script porque antes eu só vi a primeira resposta acima ... coisa boa que eu não dependia da saída do script ainda ....

— Wildcard

Agradável! Agora, e se eu quiser que o campo 3 seja numericamente e classificado inversamente, enquanto o campo 2 seja não numericamente e normal (crescente) classificado? :)

— Arun

2

O @Arun POS é explicado no final da página de manual. Você acabou de anexar as opções de pedidos ao número do campo assim:sort -k 3,3nr -k 2,2

— andras

1

Aargh. Que interface contra-intuitiva: -k2deve ser -k2,2e uma vírgula à direita -k2,deve ser 'fim de linha mágico padrão ou o que for'.

— android.weasel

94

A opção -k é o que você deseja.

-k 1.4,1.5n -k 1.14,1.15n

Usaria as posições de caracteres 4-5 no primeiro campo (é um campo para largura fixa) e classificaria numericamente como a primeira tecla.

A segunda chave seria os caracteres 14-15 no primeiro campo também.

(editar)

Exemplo (tudo o que tenho é DOS / cygwin à mão):

dir | \cygwin\bin\sort.exe -k 1.4,1.5n -k 1.40,1.60r

para os dados:

12/10/2008  01:10 PM         1,564,990 outfile.txt

Classifica a listagem do diretório pelo número do mês (pos 4-5) numericamente e depois pelo nome do arquivo (pos 40-60) ao contrário. Como não há guias, é todo o campo 1 para classificar.

— Clinton Pierce
fonte

É apenas um campo se não houver espaços em branco nos dados de entrada. No entanto, seu exemplo é útil.

— 11138 Jonathan Leffler

Correção: se não houver / tabs / nos dados de entrada. Na saída do comando 'dir' do DOS, não há guias.

— Clinton Pierce

Os exemplos de como usar as opções (numérico, reverso) são extremamente úteis, pois é quase impossível descobrir como usar apenas na página de manual e as outras respostas não mencionaram isso. Eu gostaria de poder +2 por isso. ;)

— msb 21/10

22

Aqui está um para classificar várias colunas em um arquivo csv por ordem numérica e de dicionário, colunas 5 e depois como ordem de dicionário

~/test>sort -t, -k1,1n -k2,2n -k3,3d -k4,4n -k5d  sort.csv
1,10,b,22,Ga
2,2,b,20,F
2,2,b,22,Ga
2,2,c,19,Ga
2,2,c,19,Gb,hi
2,2,c,19,Gb,hj
2,3,a,9,C

~/test>cat sort.csv
2,3,a,9,C
2,2,b,20,F
2,2,c,19,Gb,hj
2,2,c,19,Gb,hi
2,2,c,19,Ga
2,2,b,22,Ga
1,10,b,22,Ga

Observe que -k1,1n significa numérico, começando na coluna 1 e terminando na coluna 1. Se eu tivesse feito abaixo, teria concatenado as colunas 1 e 2, tornando 1,10 classificado como 110

~/test>sort -t, -k1,2n -k3,3 -k4,4n -k5d  sort.csv
2,2,b,20,F
2,2,b,22,Ga
2,2,c,19,Ga
2,2,c,19,Gb,hi
2,2,c,19,Gb,hj
2,3,a,9,C
1,10,b,22,Ga

— edW
fonte

1

Esta é a melhor resposta, porque mostra como usar opções diferentes para diferentes colunas

— xaxa

12

Eu acredito no seu caso, algo como

sort -t@ -k1.1,1.4 -k1.5,1.7 ... <inputfile

vai funcionar melhor. @ é o separador de campos, verifique se é um caractere que não aparece em lugar nenhum. sua entrada é considerada como consistindo em uma coluna.

Edit: aparentemente Clintp já deu uma resposta semelhante, desculpe. Como ele aponta, as bandeiras 'n' e 'r' podem ser adicionadas a todas as opções -k ....

— Dong Hoon
fonte

Embora o separador padrão de acordo com docs gnu.org/software/coreutils/manual/html_node/… seja espaço, às vezes a contagem de campos não é o que você esperaria. Talvez, como outros já disseram aqui, devido à configuração da localidade LC_CTYPE. Em caso de dúvida, conte desde o início da linha!

— Brad Dre

5

Observe que também pode ser desejado estabilizar a classificação com o -scomutador, para que as linhas igualmente classificadas também mantenham sua ordem relativa original na saída.

— Ron
fonte

2

Eu só quero adicionar algumas dicas, ao usar a classificação, tenha cuidado com o local que afeta a ordem da comparação de chaves. Eu normalmente uso explicitamente LC_ALL = C para tornar o local o que eu quero.

— jianpx
fonte

LC_ALL = C também pode resultar em uma aceleração bastante!

— mat Kelcey