Estou trabalhando em algum software que deve determinar locais do mundo real (câmaras de velocidade de fe) a partir de vários relatórios baseados em GPS . Um usuário estará dirigindo ao relatar um local, portanto os relatórios serão muito imprecisos. Para resolver esse problema, tenho que agrupar relatórios sobre o mesmo local e calcular uma média.
Minha pergunta é sobre como agrupar esses relatórios . Eu li sobre algoritmos de expectativa de maximização e cluster de meios k , mas, como eu entendi, precisaria determinar com antecedência o número de locais reais.
Existem outros algoritmos que não precisam do número exato de locais reais, mas usam algumas condições de borda (distância mínima)?
Um relatório contém longitude , latitude e precisão (em metros). Não há nome ou qualquer outra coisa que possa ser usada para identificar duplicatas.
Outro obstáculo pode ser que seja comum, que haja apenas um relatório para uma localização no mundo real. Isso dificulta a distinção de valores discrepantes de bons dados.