Encontrar vetores semelhantes em tempo subquadrático

Seja $d:\{0,1\}^k\times \{0,1\}^k \to \mathbb{R}$ uma função à qual nos referimos como função de similaridade . Exemplos de funções de similaridade são distância cosseno, norma $l_2$ , distância de Hamming, similaridade de Jaccard, etc.

Considere $n$ vectores binários de comprimento $k$ : $\vec{v} \in (\{0,1\}^k)^n$ .

Nosso objetivo é agrupar vetores semelhantes. Mais formalmente, queremos calcular um gráfico de similaridade em que os nós são os vetores e as arestas representam vetores que são semelhantes ( $d(v,u) \leq \epsilon$ ).

$n$ e $k$ são números muito grandes, e comparar doisvetores comprimento $k$ é caro, não podemos realizar todas asoperações deforça bruta $O(n^2)$ . Queremos calcular o gráfico de similaridade com significativamente menos operações.

Isso é possível? Se não, podemos calcular uma aproximação ao gráfico que contém todas as arestas no gráfico de similaridade e possivelmente no máximo $O(1)$ outras arestas?

ds.algorithms graph-algorithms clustering

— RAM
fonte

Deveria ser

\leq ϵ

$\leq \epsilon$ vez de

\geq ϵ

$\geq \epsilon$ ?

— usul

@usul Obrigado pelo seu comentário :) Aqui, estamos interessados em agrupar itens que são altamente semelhantes. Eu editei a pergunta, espero que esteja clara agora.

— Ram

Parece-me que você poderia usar o Similarity Preserving Hashing ( arxiv.org/pdf/1311.7662v1.pdf ) para reduzir a dimensão do problema.

— RB

d

$d$

(\binom{n}{2})

${n\choose 2}$

Você trabalha no twitter? blog.twitter.com/2014/all-pairs-similarity-via-dimsum Sério, até mesmo detectar se existe uma aresta neste gráfico (ou seja, que não é um conjunto independente de vértices) será muito difícil de ser feito mais rapidamente do que para uma função de similaridade arbitrária.

O (n^{2})

$O(n^2)$

— Ryan Williams

Pode haver uma maneira de inserir o teorema de Johnson-Lindenstrauss nesse problema. Essencialmente, JL afirma que você pode projetar dados de alta dimensão em espaços dimensionais inferiores, de maneira que as distâncias em pares sejam quase preservadas. Mais praticamente, Achlioptas possui um documento chamado projeções aleatórias amigáveis ao banco de dados: Johnson-Lindenstrauss com moedas binárias que faz essa projeção de maneira aleatória, o que funciona muito bem na prática.

Agora, certamente, sua função de similaridade não é exatamente a mesma que algo que se encaixaria no teorema da JL. No entanto, parece uma função de distância e talvez parte da teoria acima possa ajudar.

— wyer33
fonte