Em um contexto de divisão da árvore de decisão, não é óbvio ver por que a impureza de Gini
Em um contexto de divisão da árvore de decisão, não é óbvio ver por que a impureza de Gini
Respostas:
Imagine um experimento com possíveis categorias de saída. Categoria tem uma probabilidade de ocorrência (Onde )
Em seguida, reproduza a experiência duas vezes e faça as seguintes observações:
É isso aí! A impureza de Gini é simplesmente a probabilidade de obter dois resultados diferentes , que é uma "medida de impureza". Na outra direção, se tivermos um de tal modo que (e assim o outro p (j | t) = 0) temos uma impureza de Gini e sempre teremos duas saídas idênticas da categoria , que é uma situação "pura" !.
Impureza de Gini = entropia lógica = índice de biodiversidade de Gini-Simpson = entropia quadrática com função de distância lógica (1-Kroneckerdelta), etc. Veja: Ellerman, David. 2018. “Entropia Lógica: Introdução à Teoria da Informação Lógica Clássica e Quântica.” Entropia 20 (9): ID do artigo 679. https://doi.org/10.3390/e20090679 e as referências nela contidas.