O problema refere-se à construção de árvores de decisão. Segundo a Wikipedia, ' coeficiente de Gini ' não deve ser confundido com ' impureza de Gini '. No entanto, ambas as medidas podem ser usadas na construção de uma árvore de decisão - elas podem apoiar nossas escolhas ao dividir o conjunto de itens.
1) 'Gini impureza' - é uma métrica padrão de divisão de árvores de decisão (veja no link acima);
2) 'Coeficiente de Gini' - cada divisão pode ser avaliada com base no critério da AUC. Para cada cenário de divisão, podemos construir uma curva ROC e calcular a métrica da AUC. Segundo a Wikipedia AUC = (GiniCoeff + 1) / 2;
A pergunta é: essas duas medidas são equivalentes? Por um lado, sou informado de que o coeficiente de Gini não deve ser confundido com a impureza de Gini. Por outro lado, essas duas medidas podem ser usadas para fazer a mesma coisa - avaliar a qualidade de uma divisão em árvore de decisão.