Em Elements of Statistical Learning , um problema é introduzido para destacar problemas com k-nn em espaços de alta dimensão. Existem pontos de dados que são distribuídos uniformemente em uma esfera unitária dimensional.
A distância média da origem ao ponto de dados mais próximo é dada pela expressão:
Quando , a fórmula se divide em metade do raio da bola, e posso ver como o ponto mais próximo se aproxima da borda como , fazendo com que a intuição por trás do knn se quebre em grandes dimensões. Mas não consigo entender por que a fórmula depende de N. Alguém poderia esclarecer?
Além disso, o livro aborda essa questão ainda mais afirmando: "... a previsão é muito mais difícil perto das bordas da amostra de treinamento. É preciso extrapolar dos pontos de amostra vizinhos em vez de interpolar entre eles". Parece uma afirmação profunda, mas não consigo entender o que isso significa. Alguém poderia reformular?