Qual é a intuição por trás da métrica de variação da informação (VI) para validação de cluster?

Para não estatísticos como eu, é muito difícil capturar a ideia de VImétrica (variação de informação) mesmo depois de ler o artigo relevante de Marina Melia " Comparando agrupamentos - uma distância baseada em informação " (Journal of Multivariate Analysis, 2007). De fato, não estou familiarizado com muitos dos termos dos agrupamentos por aí.

Abaixo está um MWE e eu gostaria de saber o que significa a saída nas diferentes métricas usadas. Eu tenho esses dois clusters em R e na mesma ordem de id:

> dput(a)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")
> dput(b)
structure(c(4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 3L, 3L, 
4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 
1L, 1L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 2L, 2L, 
4L, 3L, 3L, 2L, 2L, 2L, 4L, 3L, 4L, 4L, 3L, 1L, 4L, 3L, 4L, 4L, 
3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 2L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 
4L, 4L, 4L, 4L, 3L, 4L, 4L, 3L, 4L, 4L, 4L, 4L, 4L, 4L, 3L, 4L, 
4L, 3L, 4L, 4L, 4L, 4L, 4L, 3L, 3L, 4L, 4L, 4L, 4L, 2L, 2L, 4L
), .Label = c("1", "2", "3", "4"), class = "factor")

Agora, fazendo comparações com base em VIoutras métricas / índices e em ordem cronológica de sua aparência na literatura.

library(igraph)
  # Normalized Mutual Information (NMI) measure 2005:
compare(a, b, method = c("nmi")) 
[1] 0.8673525
  # Variation of Information (VI) metric 2003:
compare(a, b, method = c("vi")) 
[1] 0.2451685
  # Jaccard Index 2002:
clusteval::cluster_similarity(a, b, similarity = c("jaccard"), method = "independence") 
[1] 0.8800522
  # van Dongen S metric 2000:
compare(a, b, method = c("split.join")) 
[1] 8
  # Adjusted Rand Index 1985:
compare(a, b, method = c("adjusted.rand")) 
[1] 0.8750403
  # Rand Index 1971:
compare(a, b, method = c("rand")) 
[1] 0.9374788

Como você pode ver, o VIvalor era diferente de todos os outros.

O que esse valor diz (e como está relacionado à figura abaixo)?
Quais são as diretrizes para considerar esse valor baixo ou alto?
Existem diretrizes definidas?

Talvez os especialistas da área possam fornecer algumas descrições sensatas para leigos como eu ao tentar relatar esses resultados. Eu realmente apreciaria se alguém também fornecesse diretrizes para outras métricas (quando considerar o valor grande ou pequeno, isto é, em relação à semelhança entre dois clusters).

Eu li tópicos de CV relacionados aqui e aqui , mas ainda não consegui entender a intuição por trás VI. Alguém pode explicar isso em inglês simples?

A figura abaixo é a figura 2 do documento mencionado acima VI.

insira a descrição da imagem aqui

r clustering validation intuition

— doutorado
fonte

Todas essas semelhanças e métricas (observe a diferença entre os dois tipos) medem de uma maneira ou de outra a quantidade de fragmentação associada à maior subclustering comum entre as duas partições. Todos eles usam o que é conhecido como matriz de confusão. Ao considerar a fórmula precisa para VI, pode-se entender que está medindo essa fragmentação. Eu sugeriria examinar a fórmula em uma das publicações da Meila e também ler sobre as versões normalizadas de todas essas distâncias, pois todas elas têm escalas diferentes. Este pode ser o ponto mais importante.

— micans

Eu também estava lutando com a interpretação do VI e achei este artigo muito útil!

— Pizza

Você precisa perceber que as medidas podem ter uma interpretação diferente.

A julgar pelo seu enredo, um baixo VI é bom.

1 - 0.2451685 = 0.7548315

o que está muito mais alinhado com as outras medidas.

No entanto, observe que a maioria dessas medidas mede algo diferente .

Não há razão para supor que, apenas porque uma medida é 0,8, outra também deve ser 0,8

— Possui QUIT - Anony-Mousse
fonte

Acho que o OP agradeceria se você pudesse explicar que coisa diferente cada um deles mede.

— gung - Restabelece Monica

Não os conheço o suficiente para explicar cada um deles. É claro que eles não têm uma escala / unidade comparável. Assim como Volts e pés não são comparáveis.

— Saiu - Anony-Mousse