Definir semelhança - Calcular o índice Jaccard sem complexidade quadrática

Eu tenho um grupo de n conjuntos para os quais preciso calcular um tipo de valor de "exclusividade" ou "similaridade". Eu estabeleci o índice Jaccard como uma métrica adequada. Infelizmente, o índice Jaccard opera apenas em dois conjuntos por vez. Para calcular a semelhança entre todos os conjuntos, será necessário na ordem dos cálculos de Jaccard. $n$ $n^2$

(Se ajudar, é geralmente entre 10 e 10000, e cada conjunto contém, em média, 500 elementos. Além disso, no final, não me importo com a semelhança de dois conjuntos específicos - em vez disso, apenas me importo com a semelhança interna. de todo o grupo de conjuntos é (em outras palavras, a média (ou pelo menos uma aproximação suficientemente precisa da média) de todos os índices de Jaccard no grupo)) $n$

Duas questões:

Existe uma maneira de ainda usar o índice Jaccard sem a complexidade ? $n^2$
Existe uma maneira melhor de calcular a semelhança / exclusividade de conjuntos em um grupo de conjuntos do que a sugerida acima?

algorithms time-complexity

— rinogo
fonte

Você poderia primeiro esclarecer o que você quer dizer com "semelhança interna"?

— Suresh

Em outras palavras, a média (ou pelo menos uma aproximação suficientemente precisa da média) de todos os índices de Jaccard no grupo.

Se você estiver disposto a aproximar a resposta, poderá usar o hash minúsculo para estimar a distância Jaccard aproximadamente e usar a representação resultante para calcular a média desejada.

— Suresh

Não sei o que você quer dizer com “suficientemente preciso”, mas uma maneira de estimar a média de muitas coisas é apenas computar várias delas (os índices Jaccard de vários pares de conjuntos nesse caso) aleatoriamente e calcular sua média. Em seguida, você pode usar o limite de Chernoff para obter um limite superior na probabilidade de que essa estimativa esteja longe da média real.

— Tsuyoshi Ito

Respostas:

Uma opção seria usar o Esquema de assinatura de [1], filtragem baseada em tamanho : um esquema que usa informações de tamanho para reduzir o número de pares de conjuntos que precisam ser considerados.

Eles também experimentam uma forma ponderada; onde os pesos são baseados em IDF.

[1] Arasu, Arvind, Venkatesh Ganti e Raghav Kaushik. “Junta-se a similaridade exata eficiente de conjuntos.” Nos Anais da 32ª Conferência Internacional sobre Bases de Dados Muito Grandes, 918–929. VLDB '06. Dotação do VLDB, 2006

— AT
fonte

Esse link parece ter morrido. Considere atualizá-lo para vldb.org/conf/2006/p918-arasu.pdf .

— Jrandom_hacker

Outra opção seria empregar o link wiki de hash de sensibilidade local . Eu já vi isso sendo usado na detecção de similaridade da comunidade por Wu e Zou ( um método incremental de detecção da comunidade para sistemas de marcação social usando hash sensível à localidade , Neural Networks 58: 14–28; ACM DL ), que basicamente detecta similaridade entre números inteiros ou conjuntos de strings.

— dinos66
fonte

Resuma o conteúdo dos links e cite o artigo. Se os links ficarem obsoletos, a resposta atual será inútil.

— vonbrand