Índice de Rand ajustado versus informação mútua ajustada

Estou tentando avaliar o desempenho do cluster. Eu estava lendo a documentação do skiscit-learn em métricas . Eu não entendo a diferença entre ARI e AMI. Parece-me que eles fazem a mesma coisa de duas maneiras diferentes.

Citando a partir da documentação:

Dado o conhecimento das atribuições básicas da classe verdade labels_true e das atribuições do nosso algoritmo de agrupamento das mesmas amostras labels_pred, o índice Rand ajustado é uma função que mede a similaridade das duas atribuições, ignorando permutações e com a normalização do acaso.

Dado o conhecimento das atribuições básicas da classe verdade labels_true e das atribuições do nosso algoritmo de agrupamento das mesmas amostras labels_pred, as informações mútuas são uma função que mede a concordância das duas atribuições, ignorando as permutações ... A AMI foi proposta mais recentemente e é normalizada contra chance.

Devo usar os dois na minha avaliação de cluster ou isso seria redundante?

clustering python scikit-learn

— al27091
fonte

O Sr. Rand não é aleatório.

— Tem QUIT - Anony-Mousse

Respostas:

São duas de uma dúzia que tentam comparar agrupamentos.

Mas eles não são equivalentes. Eles usam teoria diferente.

Às vezes, o IRA pode preferir um resultado e o IAM outro. Mas muitas vezes eles concordam em preferência (não nos números).

— Possui QUIT - Anony-Mousse
fonte

O que você quer dizer com: "eles concordam em preferência (não nos números)?"

— al27091

Quando você compara vários resultados.

— QuIT - Anony-Mousse 8/17/17

A regra de ouro é:

Use ARI quando o cluster de verdade no solo tiver clusters grandes de tamanho igual
EUA AMI quando o agrupamento da verdade básica é desequilibrado e existem pequenos agrupamentos

Eu trabalhei neste tópico. Referência: Ajustando para Medidas de Comparação de Cluster de Chance

— Simone
fonte

Apliquei o HDBSCAN e o KMeans em alguns dos meus conjuntos de dados com o número certo de clusters para o KMeans e o tamanho mínimo correto do cluster para o HDBSCAN. Meu problema é que uma progressão no IAM não se correlaciona com uma progressão no IRA. Recebo uma média de 0,3 e 0,35 no AMI, que é baixa. Recebo resultados de ARI próximos de 0: 0,07 e 0,01, respectivamente. Mesmo nos casos em que obtive melhor IAM com HDBSCAN, minhas pontuações no IRA eram muito próximas de 0, ou seja, o HDBSCAN produz IRA menor que o KMeans, mesmo nos casos em que o IAM é maior.

— Ryuzakinho

A que tipo de resultados de agrupamento significam 0,3 e 0,35 para a AMI?

— Simone

pastebin.com/raw/WHvTxbLm Este é um dos casos que não entendo: Melhor AMI não significa melhor ARI e vice-versa. Existe alguma razão para confiar na melhoria relativa de um ou de outro. Não tenho certeza de qual métrica analisar para melhorar meus resultados (no artigo que você vinculou, acho que deve ser a AMI, dada a minha distribuição de classe, mas ainda estou confuso).

— Ryuzakinho 15/11/19

No seu caso, o resultado do HDBSCAN mostra um cluster muito grande e muitos pequenos, o que é, por definição, uma solução desequilibrada. Portanto, a AMI é maior com o DBSCAN. Sua verdade básica é mais equilibrada do que essa solução. Portanto, eu usaria o ARI para escolher a solução aqui. Dito isto, parece que as soluções de cluster que você obteve não são tão boas. Talvez seja porque você tem muitos clusters. Você poderia reduzir o número de clusters que deseja? Ou você tem recursos a serem levados em consideração ao invés de usar um cluster baseado na distância?

— Simone

Após mais testes qualitativos, a AMI ficou mais confiável para o meu caso de uso. De fato, a AMI disse que o HDBSCAN era melhor, e eu o achei melhor. Embora eu tivesse um grande cluster de ruído, os outros clusters eram mais puros que os do KMEANS.

— ryuzakinho 30/11