Quando o “vizinho mais próximo” é significativo hoje?

Em 1999, Beyer et al. perguntou: Quando o "vizinho mais próximo" é significativo?

Existem maneiras melhores de analisar e visualizar o efeito da planicidade da distância na pesquisa de NN desde 1999?

O conjunto de dados [dado] fornece respostas significativas para o problema 1-NN? O problema dos 10-NN? O problema 100-NN?

Como vocês especialistas abordariam essa questão hoje?

Edições segunda-feira 24 jan:

Que tal "distanciamento à distância" como um nome mais curto para "nivelamento à distância com dimensão crescente"?

Uma maneira fácil de observar o "apagão da distância" é executar o 2-NN e traçar as distâncias para o vizinho mais próximo e o segundo vizinho mais próximo. O gráfico abaixo mostra dist ₁ e dist ₂ para uma variedade de nclusters e dimensões, de Monte Carlo. Este exemplo mostra um bom contraste de distância para a diferença absoluta em escala | dist ₂ - dist ₁ |. (As diferenças relativas | dist ₂ / dist ₁ | → 1 como dimensão → ∞, tornam-se inúteis.)

Se erros absolutos ou relativos devem ser usados em um determinado contexto depende, é claro, do ruído "real" presente: difícil.

Sugestão: sempre execute 2-NN; 2 vizinhos são úteis quando estão próximos e úteis quando não estão.

insira a descrição da imagem aqui

machine-learning k-nearest-neighbour

— denis
fonte

Beyer et al. parece estar abordando um aspecto um pouco diferente do problema da NN. Mas, para fins de classificação (binária), em condições moderadas, é um resultado clássico que a classificação 1-NN tenha, no pior caso , duas vezes a probabilidade de erro do classificador Bayes (ie, ideal) assintoticamente. Em outras palavras, o primeiro vizinho mais próximo contém "pelo menos metade das informações" sobre o rótulo do destino, como o melhor classificador. Nesse sentido, o 1-NN parece bastante relevante. (. Veja Tampa & Hart (1967) para mais Eu estou surpreso que Beyer et al não citá-lo..)

— cardeal

@ cardinal, o limite de Cover-Hart parece não depender da dimensão, como você diz um aspecto diferente?

— Denis

sim, acredito que isso seja verdade e esse foi, em grande parte, o meu ponto de trazê-lo à tona. O 1-NN parece bastante relevante nesse sentido, ou seja, o fato de funcionar (tão) bem (teoricamente) uniformemente na dimensão do espaço de recurso parece ajudá-lo a se manter por si próprio, independentemente do comportamento do mais próximo e vizinhos mais distantes está em um grande espaço dimensional. Isso me faz pensar se Beyer estava ciente de tudo isso (clássico) resultado.

— cardeal

@cardinal A parte superior da página 24 em Cover and Hart parece um local onde um problema pode surgir em suas provas, na etapa em que Cover e Hart argumentam que todo RV x \ in X tem a propriedade de todas as esferas abertas sobre x medida diferente de zero. Se considerarmos a geometria da hiperesfera, veremos que o volume do interior da hiperesfera encolhe com uma dimensão crescente; portanto, no limite, a bola aberta em torno de x contém apenas x em seu interior. Alternativamente, através do SLLN, os RVs iid x no espaço métrico X estão todos na superfície da hiperesfera com probabilidade um.

— quer

Consulte também métricas L1 ou L.5 para cluster .

— Denis2019-05-27

Respostas:

Não tenho uma resposta completa para essa pergunta, mas posso dar uma resposta parcial sobre alguns dos aspectos analíticos. Aviso: estou trabalhando em outros problemas desde o primeiro artigo abaixo, por isso é muito provável que haja outras coisas boas por aí que eu não esteja ciente.

Primeiro, acho que vale a pena notar que, apesar do título do artigo "Quando o 'vizinho mais próximo' é significativo", Beyer et al realmente responderam a uma pergunta diferente, a saber, quando o NN não é significativo. Provamos o inverso de seu teorema, sob algumas suposições adicionais adicionais sobre o tamanho da amostra, em Quando o 'vizinho mais próximo' é significativo: um teorema e implicações inversos. Journal of Complexity, 25 (4), agosto de 2009, pp 385-397.e mostrou que há situações em que (em teoria) a concentração de distâncias não surgirá (damos exemplos, mas, em essência, o número de recursos que não são ruídos precisa crescer com a dimensionalidade, é claro que eles raramente surgem na prática). As referências 1 e 7 citadas em nosso artigo fornecem alguns exemplos de maneiras pelas quais a concentração da distância pode ser atenuada na prática.

Um artigo do meu supervisor, Ata Kaban, analisa se esses problemas de concentração à distância persistem, apesar da aplicação de técnicas de redução de dimensionalidade em Sobre a consciência da concentração à distância de certas técnicas de redução de dados. Reconhecimento de padrões. Vol. 44, edição 2, fev 2011, pp.265-277. . Também há uma boa discussão lá.

$k$

— Bob Durrant
fonte

Obrigado Bob, +1. Uma pergunta relacionada, você teria uma regra de ouro para escolher um valor de q fracionário-métrico (ou devo fazer isso como uma pergunta separada)?

— Denis

q = 1 / p

$q=1/p$

p > 1

$p>1$

p

$p$

l_{0}

$l_0$

p = 1

$p=1$

l_{1}

$l_{1}$

l_{q = 1 / p}

$l_{q=1/p}$

p > 1

$p>1$

p

$p$

\sum | a_{j} - b_{j} |^{q}

$\sum |a_j - b_j|^q$

1 / q

$1/q$

< q <

$< q <$

ℓ_{p}

$\ell_{p}$

Você também pode estar interessado na análise de componentes de vizinhança por Goldberger et al.

Aqui, uma transformação linear é aprendida para maximizar os pontos corretamente classificados esperados através de uma seleção de vizinhança estocástica mais próxima.

Como efeito colateral, o número (esperado) de vizinhos é determinado a partir dos dados.

— bayerj
fonte

Obrigado bayer. Parece que o "aprendizado métrico a distância" está crescendo - scholar.goo tem 50 títulos desde 2008. Mas o papel do boom é um uso real? Nota de rodapé, o código para nca diz "iterações ... pelo menos 100000 para obter bons resultados". Nota de rodapé 2, a maior parte do trabalho sobre aprendizado métrico à distância parece modelar uma distância de Mahalanobis; você conheceria outros modelos a distância?

— Denis 24/05

Eu tenho experiências diferentes com a NCA - ela geralmente converge bastante rapidamente para mim. Confira "redução da dimensionalidade através da aprendizagem de um mapeamento invariável" da LeCun e "Minimal Loss Hashing for Compact Binary Codes" da Norouzi.

— 26411 bayerj