Como calcular a pureza?

Na análise de cluster, como calculamos a pureza? Qual é a equação?

Não estou procurando um código para fazer isso por mim.

insira a descrição da imagem aqui

Seja cluster ke classe j. $\omega_k$ $c_j$

Então a pureza é praticamente precisa? parece que estavam somando a quantidade de classe verdadeiramente classificada por cluster sobre o tamanho da amostra.

fonte da equação

A questão é: qual é a relação entre a saída e a entrada?

Se houver Verdadeiramente Positivo (TP), Verdadeiramente Negativo (TN), Falsamente Positivo (FP), Falsamente Negativo (FN). É ? $Purity = \frac{TP_K}{(TP+TN+FP+FN)}$

clustering

— Iancovici
fonte

Se você só precisa de uma definição rápida: a principal pesquisa do Google sobre pureza de cluster ** links aqui, que fornece uma definição matemática. (** para mim, pelo menos - os resultados individuais podem ser diferentes)

— Glen_b -Reinstala Monica 29/04

Não tenho idéia do que você quer dizer com "pureza", mas David Colquhoun usa "o ensaio mágico preto da pureza do coração" como um exemplo de amostragem binomial nas páginas 111-114 de seu excelente livro didático Lectures on Biostatistics (1971), que é disponível como um pdf grátis no site do autor: dcscience.net Mesmo que seja irrelevante para a sua pergunta, é uma ótima história.

— Michael Lew - restabelece Monica

Nas árvores de classificação, algumas das funções para medir a impureza são: erro de re-substituição, índice gini e entropia. (As árvores de classificação executam uma forma específica de agrupamento, então acho que isso deve ser relevante.) Espero que isso ajude!

— precisa saber é o seguinte

Dentro do contexto da análise de cluster, a Pureza é um critério de avaliação externa da qualidade do cluster. É a porcentagem do número total de objetos (pontos de dados) que foram classificados corretamente, no intervalo de unidades [0..1].

P u r i t y = \frac{1}{N} \sum_{i = 1}^{k} m a x_{j} | c_{i} \cap t_{j} |

$Purity = \frac 1 N \sum_{i=1}^k max_j | c_i \cap t_j |$

onde $N$ = número de objetos (pontos de dados), $k$ = número de clusters, $c_i$ é um cluster em $C$ e $t_j$ é a classificação que possui a contagem máxima para o cluster $c_i$

$c_i$ $t_i$ $c_i$ $t_i$ $c_i$ $t_i$ $c_i$ $c_i$ $t_i$ $c_i \cap t_i$ $max$

$c_i$ $t_i$

   |  T1 |  T2  |  T3
---------------------
C1 |  0  |  53  |  10
C2 |  0  |  1   |  60
C3 |  0  |  16  |  0

$c_i$

Purity = (53 + 60 + 16) / 140 = 0.92142

— Snives
fonte

você também pode responder por entropia?

— MonsterMMORPG

Aqui está minha pergunta: stackoverflow.com/questions/35709562/…

— MonsterMMORPG

t_{j}

$t_j$

m a x_{j}

$max_{j}$