Tenho mais de 10000 imagens, das quais cerca de 2000 são duplicadas em outros formatos (como JPEG, PNG, GIF). Ambos os números estão aumentando a cada dia. Preciso excluir essas duplicatas e, para isso, preciso saber como encontrá-las primeiro.
Meu primeiro pensamento foi verificar os pixels das imagens e encontrar outras imagens que tenham os mesmos pixels coloridos nas mesmas coordenadas. Mas essa opção nem sempre funciona. Digamos que eu procure uma duplicata. Quanto ao objeto pesquisável, escolho um arquivo PNG de 8 bits. Ele encontrará todas as duplicatas dessa imagem, mas apenas o PNG de 8 bits, às vezes GIF de 8 bits e raramente JPEG (por causa das imagens algorítmicas, suponho?).
Meu segundo pensamento foi duplicar todas essas imagens e recolori-las em uma paleta estrita de duas cores (digamos em preto e branco) e fazer a mesma digitalização conforme indicado acima. Mais uma vez, a imagem JPEG não é 100% semelhante ao formato PNG ou GIF (o mesmo motivo acima).
O terceiro pensamento era diminuir a porcentagem de quanto a imagem precisa ser familiar e aumentar o quanto as cores podem variar, resultando na remoção indesejada de imagens ...
Alguma ideia?