Eu herdei um cluster de pesquisa com ~ 40 TB de dados em três sistemas de arquivos. Os dados remontam a quase 15 anos, e é provável que haja uma boa quantidade de duplicatas, pois os pesquisadores copiam os dados uns dos outros por diferentes razões e depois se apegam às cópias.
Eu sei sobre ferramentas de remoção de dupagem, como fdupes e rmlint. Estou tentando encontrar um que funcione em um conjunto de dados tão grande. Eu não me importo se levar semanas (ou talvez meses) para rastrear todos os dados - provavelmente eu o estrangularei para facilitar o uso dos sistemas de arquivos. Mas preciso encontrar uma ferramenta que seja de alguma forma super eficiente com a RAM ou que possa armazenar todos os dados intermediários de que precisa nos arquivos, e não na RAM. Estou assumindo que minha RAM (64GB) estará esgotada se eu rastrear todos esses dados como um conjunto.
Agora estou experimentando fdupes em uma árvore de 900 GB. É 25% do caminho e o uso da RAM tem aumentado lentamente o tempo todo, agora é de 700 MB.
Ou existe uma maneira de direcionar um processo para usar a RAM mapeada em disco, para que haja muito mais disponível e ele não use a RAM do sistema?
Estou executando o CentOS 6.