Assume-se que temos um conjunto de elementos de E e uma similaridade ( não distância ) função SIM (EI, ej) entre dois elementos ei, ej ∈ E .
Como poderíamos (eficientemente) agrupar os elementos de E usando sim ?
k significa, por exemplo, requer um determinado k , o Canopy Clustering requer dois valores limite. E se não quisermos parâmetros predefinidos?
Observe que esse sim não é necessariamente uma métrica (ou seja, a desigualdade do triângulo pode ou não se mantém). Além disso, não importa se os clusters são disjuntos (partições de E ).
1-sim(ei, ej) = Distance
. Com a métrica de distância, você pode aplicar, por exemplo, cluster hierárquico. Ao descer da raiz, você verá em que nível de clusters de granularidade faria sentido para o seu problema específico.