Métodos não paramétricos como os vizinhos mais próximos K no espaço de recursos de alta dimensão

A idéia principal de k-vizinho mais próximo leva em conta os pontos mais próximos e decide a classificação dos dados por maioria de votos. Nesse caso, não deve haver problemas nos dados dimensionais mais altos, porque métodos como o hash sensível à localidade podem encontrar com eficiência os vizinhos mais próximos. $k$

Além disso, a seleção de recursos com redes bayesianas pode reduzir a dimensão dos dados e facilitar o aprendizado.

No entanto, este artigo de revisão de John Lafferty, no aprendizado estatístico, aponta que o aprendizado não paramétrico em espaços de características de alta dimensão ainda é um desafio e não solucionado.

O que está acontecendo de errado?

machine-learning artificial-intelligence

— Strin
fonte

Por favor, forneça uma referência completa para o artigo; os autores não parecem aparecer (com destaque) nele.

— Raphael

Respostas:

$d$

$50$ $d$ $d$ $1..1000$ $d$

Distância média vs. dimensionalidade

— usuario
fonte

Claro. Você aumentar o número de pontos em um hiperesfera de raio fixo exponencialmente na dimensionalty, então se você escolher 50 pontos uniformemente ao acaso este tem de acontecer. Portanto, se seu raciocínio estiver correto, o particionamento deve se tornar fácil se eu tiver muitas amostras; é assim mesmo?

— Raphael

Eu acredito que você inverteu. Ao aumentar a dimensionalidade, reduzo o número de pontos dentro de uma hiperesfera. O particionamento se torna mais difícil porque a medida da distância perde essencialmente o seu significado (por exemplo, tudo está longe).

— Nick

k

$k$

N^{n}

$\mathbb{N}^n$

| N^{n} \cap S_{n} (k) |

$|\mathbb{N}^n \cap S_n(k)|$

n

$n$

n

$n$

d

$d$

n << d

$n << d$

Não vejo que isso ocorra por definição; parece ser uma convenção baseada na experiência, no entanto.

— Raphael

Não é uma resposta completa, mas a página da wikipedia que você citou declara:

A precisão do algoritmo k-NN pode ser severamente degradada pela presença de recursos ruidosos ou irrelevantes ou se a escala de recursos não for consistente com sua importância.

A probabilidade de isso ocorrer aumenta na presença de espaços de característica de alta dimensão.

— Dave Clarke
fonte

Mas acho que com o PCA (análise de componentes principais) ou qualquer outro método para reduzir a dimensionalidade e remover dados irrelevantes, o k-NN ainda pode funcionar. E o que as páginas da Wikipedia significam é que o ingênuo k-NN falhará. Portanto, isso não explica o artigo de revisão.

— Strin

O PCA certamente pode funcionar, mas não em todas as situações.

— 31412 Dave