Eu tenho um PC com CPU Intel (R) Pentium (R) G640 a 2,80 GHz e 8 GB de RAM. Estou executando o Scientific Linux 6.5 nele com o sistema de arquivos EXT3.
Nessa configuração, qual é a maneira mais rápida de fazer um sort -u
arquivo de 200 gigabytes?
Devo dividir o arquivo em arquivos menores (menores que 8 GB) sort -u
, juntá-los e dividi-los novamente em um tamanho diferente, sort -u
novamente etc.? Ou existem scripts de classificação, programas que podem lidar com arquivos tão grandes com minha quantidade limitada de RAM?
parallel
Acho que você precisará do GNU para isso, em vez do moreutils parallel
instalado por padrão em alguns sistemas.
sort(1)
poderia ficar sem espaço /tmp
; Se assim for, você pode designar uma outra área para arquivos temporários com a variável de ambiente TMPDIR
, ou a bandeira-T=<tmpdir>
/tmp
.