Outra boa ferramenta é fslint
:
O fslint é um conjunto de ferramentas para encontrar vários problemas com sistemas de arquivos, incluindo arquivos duplicados e nomes de arquivos problemáticos etc.
Ferramentas de linha de comando individuais estão disponíveis além da GUI e, para acessá-las, é possível mudar ou adicionar ao $ PATH o diretório / usr / share / fslint / fslint em uma instalação padrão. Cada um desses comandos nesse diretório possui uma opção --help, que detalha mais detalhadamente seus parâmetros.
findup - find DUPlicate files
Em sistemas baseados em debian, você pode instalá-lo com:
sudo apt-get install fslint
Você também pode fazer isso manualmente se não desejar ou não puder instalar ferramentas de terceiros. A maneira como a maioria desses programas funciona é calculando as somas de verificação de arquivos . Arquivos com o mesmo md5sum quase certamente contêm exatamente os mesmos dados. Então, você poderia fazer algo assim:
find / -type f -exec md5sum {} \; > md5sums
gawk '{print $1}' md5sums | sort | uniq -d > dupes
while read d; do echo "---"; grep $d md5sums | cut -d ' ' -f 2-; done < dupes
Saída de amostra (os nomes de arquivo neste exemplo são os mesmos, mas também funcionará quando forem diferentes):
$ while read d; do echo "---"; grep $d md5sums | cut -d ' ' -f 2-; done < dupes
---
/usr/src/linux-headers-3.2.0-3-common/include/linux/if_bonding.h
/usr/src/linux-headers-3.2.0-4-common/include/linux/if_bonding.h
---
/usr/src/linux-headers-3.2.0-3-common/include/linux/route.h
/usr/src/linux-headers-3.2.0-4-common/include/linux/route.h
---
/usr/src/linux-headers-3.2.0-3-common/include/drm/Kbuild
/usr/src/linux-headers-3.2.0-4-common/include/drm/Kbuild
---
Isso será muito mais lento que as ferramentas dedicadas já mencionadas, mas funcionará.