Suponha que eu tenha cinco conjuntos que gostaria de agrupar. Entendo que a técnica SimHashing descrita aqui:
https://moultano.wordpress.com/2010/01/21/simple-simhashing-3kbzhsxyg4467-6/
poderia gerar três clusters ( {A}
, {B,C,D}
e {E}
), por exemplo, se seus resultados fossem:
A -> h01
B -> h02
C -> h02
D -> h02
E -> h03
Da mesma forma, a técnica MinHashing descrita no Capítulo 3 do livro MMDS:
http://infolab.stanford.edu/~ullman/mmds/ch3.pdf
também poderia gerar os mesmos três clusters se seus resultados fossem:
A -> h01 - h02 - h03
B -> h04 - h05 - h06
|
C -> h04 - h07 - h08
|
D -> h09 - h10 - h08
E -> h11 - h12 - h13
(Cada conjunto corresponde a uma assinatura MH composta por três "bandas" e dois conjuntos são agrupados se pelo menos uma de suas bandas de assinatura estiver combinando. Mais bandas significam mais chances de correspondência.)
No entanto, tenho várias perguntas relacionadas a estes:
(1) SH pode ser entendido como uma versão de banda única do MH?
(2) O MH implica necessariamente o uso de uma estrutura de dados como o Union-Find para criar os clusters?
(3) Estou certo ao pensar que os clusters, em ambas as técnicas, são realmente "pré-clusters", no sentido de que são apenas conjuntos de "pares candidatos"?