Eu tenho um conjunto grande e crescente de arquivos de texto, todos muito pequenos (menos de 100 bytes). Eu quero diferenciar cada par possível de arquivos e anotar quais duplicatas. Eu poderia escrever um script Python para fazer isso, mas estou me perguntando se existe uma ferramenta de linha de comando do Linux existente (ou talvez uma simples combinação de ferramentas) que faria isso?
Atualização (em resposta ao comentário do mfinni ): Os arquivos estão todos em um único diretório, portanto, todos têm nomes de arquivos diferentes. (Mas todos eles têm uma extensão de nome de arquivo em comum, facilitando a seleção de todos eles com um curinga.)