Deixe-me mostrar um exemplo de um aplicativo de cluster on-line hipotético:
No momento n, os pontos 1,2,3,4 são alocados ao cluster azul A e os pontos b, 5,6,7 são alocados ao cluster vermelho B.
No tempo n + 1, é introduzido um novo ponto a que é atribuído ao cluster azul A, mas também faz com que o ponto b também seja atribuído ao cluster azul A.
No final, os pontos 1,2,3,4, a, b pertencem a A e os pontos 5,6,7 a B. Para mim, isso parece razoável.
O que parece simples à primeira vista é realmente um pouco complicado - manter identificadores ao longo do tempo. Deixe-me tentar esclarecer esse ponto com um exemplo mais limítrofe:
O ponto verde fará com que dois pontos azuis e dois vermelhos sejam mesclados em um aglomerado que eu decidi arbitrariamente colorir azul - lembre-se de que esse já é o meu pensamento heurístico humano em ação!
Um computador para tomar essa decisão terá que usar regras. Por exemplo, quando os pontos são mesclados em um cluster, a identidade do cluster é determinada pela maioria. Nesse caso, enfrentaríamos um empate - azul e vermelho podem ser opções válidas para o novo cluster (aqui de cor azul).
Imagine um quinto ponto vermelho próximo ao verde. Então a maioria seria vermelha (3 vermelha vs 2 azul), então a cor vermelha seria uma boa escolha para o novo cluster - mas isso contradiz a escolha ainda mais clara de vermelho para o cluster mais à direita, pois as cores são vermelhas e provavelmente devem permanecer assim .
Acho suspeito pensar nisso. No final do dia, acho que não há regras perfeitas para isso - e sim heurísticas que otimizam alguns critérios de estabilidade.
Isso finalmente leva às minhas perguntas:
- Esse "problema" tem um nome ao qual pode ser referido?
- Existem soluções "padrão" para isso e ...
- ... existe talvez até um pacote R para isso?
Herança razoável de identidades de cluster no cluster repetitivo