Em 1999, Beyer et al. perguntou: Quando o "vizinho mais próximo" é significativo?
Existem maneiras melhores de analisar e visualizar o efeito da planicidade da distância na pesquisa de NN desde 1999?
O conjunto de dados [dado] fornece respostas significativas para o problema 1-NN? O problema dos 10-NN? O problema 100-NN?
Como vocês especialistas abordariam essa questão hoje?
Edições segunda-feira 24 jan:
Que tal "distanciamento à distância" como um nome mais curto para "nivelamento à distância com dimensão crescente"?
Uma maneira fácil de observar o "apagão da distância" é executar o 2-NN e traçar as distâncias para o vizinho mais próximo e o segundo vizinho mais próximo. O gráfico abaixo mostra dist 1 e dist 2 para uma variedade de nclusters e dimensões, de Monte Carlo. Este exemplo mostra um bom contraste de distância para a diferença absoluta em escala | dist 2 - dist 1 |. (As diferenças relativas | dist 2 / dist 1 | → 1 como dimensão → ∞, tornam-se inúteis.)
Se erros absolutos ou relativos devem ser usados em um determinado contexto depende, é claro, do ruído "real" presente: difícil.
Sugestão: sempre execute 2-NN; 2 vizinhos são úteis quando estão próximos e úteis quando não estão.