1
Algoritmos para agregar identidades duplicadas com base em dados não numéricos?
Eu tenho um grande conjunto de dados (2 milhões de entradas) de pessoas, mas muitas pessoas têm várias entradas no banco de dados com informações de identificação ligeiramente (ou significativamente) diferentes. Por exemplo, eu posso ter J. Doe e John Doe, ou eu posso ter John Doe com um endereço …