No artigo " Quando o 'vizinho mais próximo' é significativo? ", Lemos que,
Mostramos que, sob certas condições amplas (em termos de distribuição de dados e consultas ou carga de trabalho), à medida que a dimensionalidade aumenta, a distância do vizinho mais próximo se aproxima da distância do vizinho mais distante. Em outras palavras, o contraste nas distâncias para diferentes pontos de dados se torna inexistente. As condições que identificamos nas quais isso acontece são muito mais amplas do que as dimensões independentes e identicamente distribuídas (IID) pressupõem que outro trabalho assume.
Minha pergunta é: como devo gerar um conjunto de dados que produz esse efeito?
Criei três pontos, cada um com 1000 dimensões, com números aleatórios que variam de 0 a 255 para cada dimensão, mas os pontos criam distâncias diferentes e não reproduzem o que é mencionado acima. Parece que mudar as dimensões (por exemplo, 10 ou 100 ou 1000 dimensões) e os intervalos (por exemplo [0,1]) não mudam nada. Ainda obtenho distâncias diferentes, o que não deve ser problema para, por exemplo, algoritmos de agrupamento!
Edit: Eu tentei mais amostras, com base nos meus experimentos, as distâncias entre os pontos não convergem para nenhum número; pelo contrário, as distâncias máxima e mínima entre os pontos ficam mais aparentes. Isso também contraria o que está escrito no primeiro post de Precisa de mais intuição para a maldição da dimensionalidade e também muitos outros lugares que reivindicam a mesma coisa como https://en.wikipedia.org/wiki/Clustering_high-dimensional_data#Problems . Eu ainda apreciaria se alguém pudesse me mostrar com um pedaço de código ou conjunto de dados real que esse efeito existe em cenários práticos.