Eu tenho um grupo de n conjuntos para os quais preciso calcular um tipo de valor de "exclusividade" ou "similaridade". Eu estabeleci o índice Jaccard como uma métrica adequada. Infelizmente, o índice Jaccard opera apenas em dois conjuntos por vez. Para calcular a semelhança entre todos os conjuntos, será necessário na ordem dos n 2 cálculos de Jaccard.
(Se ajudar, é geralmente entre 10 e 10000, e cada conjunto contém, em média, 500 elementos. Além disso, no final, não me importo com a semelhança de dois conjuntos específicos - em vez disso, apenas me importo com a semelhança interna. de todo o grupo de conjuntos é (em outras palavras, a média (ou pelo menos uma aproximação suficientemente precisa da média) de todos os índices de Jaccard no grupo))
Duas questões:
- Existe uma maneira de ainda usar o índice Jaccard sem a complexidade ?
- Existe uma maneira melhor de calcular a semelhança / exclusividade de conjuntos em um grupo de conjuntos do que a sugerida acima?