Como calcular a pureza?


15

Na análise de cluster, como calculamos a pureza? Qual é a equação?

Não estou procurando um código para fazer isso por mim.

insira a descrição da imagem aqui

Seja cluster ke classe j.c jωkcj

Então a pureza é praticamente precisa? parece que estavam somando a quantidade de classe verdadeiramente classificada por cluster sobre o tamanho da amostra.

fonte da equação

A questão é: qual é a relação entre a saída e a entrada?

Se houver Verdadeiramente Positivo (TP), Verdadeiramente Negativo (TN), Falsamente Positivo (FP), Falsamente Negativo (FN). É ?Purity=TPK(TP+TN+FP+FN)


3
Se você só precisa de uma definição rápida: a principal pesquisa do Google sobre pureza de cluster ** links aqui, que fornece uma definição matemática. (** para mim, pelo menos - os resultados individuais podem ser diferentes)
Glen_b -Reinstala Monica 29/04

Não tenho idéia do que você quer dizer com "pureza", mas David Colquhoun usa "o ensaio mágico preto da pureza do coração" como um exemplo de amostragem binomial nas páginas 111-114 de seu excelente livro didático Lectures on Biostatistics (1971), que é disponível como um pdf grátis no site do autor: dcscience.net Mesmo que seja irrelevante para a sua pergunta, é uma ótima história.
Michael Lew - restabelece Monica

Nas árvores de classificação, algumas das funções para medir a impureza são: erro de re-substituição, índice gini e entropia. (As árvores de classificação executam uma forma específica de agrupamento, então acho que isso deve ser relevante.) Espero que isso ajude!
precisa saber é o seguinte

Respostas:


25

Dentro do contexto da análise de cluster, a Pureza é um critério de avaliação externa da qualidade do cluster. É a porcentagem do número total de objetos (pontos de dados) que foram classificados corretamente, no intervalo de unidades [0..1].

Purity=1Ni=1kmaxj|citj|

onde N = número de objetos (pontos de dados), k = número de clusters, ci é um cluster em C e tj é a classificação que possui a contagem máxima para o cluster ci

citiciticiticiciticitimax

citi

   |  T1 |  T2  |  T3
---------------------
C1 |  0  |  53  |  10
C2 |  0  |  1   |  60
C3 |  0  |  16  |  0

ci

Purity = (53 + 60 + 16) / 140 = 0.92142

você também pode responder por entropia?
MonsterMMORPG


tjmaxj
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.