Eu tenho um PC com CPU Intel (R) Pentium (R) G640 a 2,80 GHz e 8 GB de RAM. Estou executando o Scientific Linux 6.5 nele com o sistema de arquivos EXT3.
Nessa configuração, qual é a maneira mais rápida de fazer um sort -uarquivo de 200 gigabytes?
Devo dividir o arquivo em arquivos menores (menores que 8 GB) sort -u, juntá-los e dividi-los novamente em um tamanho diferente, sort -unovamente etc.? Ou existem scripts de classificação, programas que podem lidar com arquivos tão grandes com minha quantidade limitada de RAM?
parallelAcho que você precisará do GNU para isso, em vez do moreutils parallelinstalado por padrão em alguns sistemas.
sort(1)poderia ficar sem espaço /tmp; Se assim for, você pode designar uma outra área para arquivos temporários com a variável de ambiente TMPDIR, ou a bandeira-T=<tmpdir>
/tmp.