Alguém pode praticamente explicar a lógica por trás da impureza de Gini versus ganho de informação (com base na Entropia)?
Qual métrica é melhor usar em diferentes cenários ao usar árvores de decisão?
Alguém pode praticamente explicar a lógica por trás da impureza de Gini versus ganho de informação (com base na Entropia)?
Qual métrica é melhor usar em diferentes cenários ao usar árvores de decisão?
Respostas:
A impureza de Gini e a entropia de ganho de informações são praticamente as mesmas. E as pessoas usam os valores de forma intercambiável. Abaixo estão as fórmulas de ambos:
Se tivesse uma opção, eu usaria a impureza de Gini, pois ela não exige que eu calcule funções logarítmicas, que são computacionalmente intensivas. A forma fechada de sua solução também pode ser encontrada.
Qual métrica é melhor usar em diferentes cenários ao usar árvores de decisão?
A impureza de Gini, pelas razões expostas acima.
Portanto, eles são praticamente os mesmos quando se trata de análises da CART.
Referência útil para comparação computacional dos dois métodos
Geralmente, seu desempenho não muda se você usa a impureza Gini ou a Entropia.
Laura Elena Raileanu e Kilian Stoffel compararam ambos em " Comparação teórica entre o índice de gini e os critérios de ganho de informação ". As observações mais importantes foram:
Me disseram uma vez que ambas as métricas existem porque surgiram em diferentes disciplinas da ciência.
Para o caso de uma variável com dois valores, aparecendo com as frações f e (1-f),
o gini e a entropia são dados por:
gini = 2 * f (1-f)
entropia = f * ln (1 / f) + (1-f) * ln (1 / (1-f))
Essas medidas são muito semelhantes se forem dimensionadas para 1,0 (plotagem 2 * gini e entropia / ln (2)):
A entropia leva um pouco mais de tempo de computação que o Índice Gini por causa do cálculo do log, talvez seja por isso que o Índice Gini se tornou a opção padrão para muitos algoritmos de ML. Mas, de Tan et. livro de introdução à mineração de dados
"As medidas de impureza são bastante consistentes entre si ... De fato, a estratégia usada para podar a árvore tem um impacto maior na árvore final do que a escolha da medida de impureza."
Portanto, parece que a seleção da medida de impureza tem pouco efeito no desempenho de algoritmos de árvore de decisão única.
Além disso. "O método Gini funciona apenas quando a variável de destino é uma variável binária." - Aprendendo Análise Preditiva com Python.
Venho fazendo otimizações na classificação binária na última semana + e, em todos os casos, a entropia supera significativamente o gini. Isso pode ser específico ao conjunto de dados, mas parece que tentar os dois ao ajustar os hiperparâmetros é uma escolha racional, em vez de fazer suposições sobre o modelo antes do tempo.
Você nunca sabe como os dados reagirão até que você execute as estatísticas.
De acordo com a parcimônia, o principal Gini supera a entropia na facilidade de computação (o log é óbvio tem mais cálculos envolvidos, em vez da multiplicação simples no nível do processador / máquina).
Mas a entropia definitivamente tem uma vantagem em alguns casos de dados que envolvem alto desequilíbrio.
Como a entropia usa o log de probabilidades e a multiplicação das probabilidades de eventos, o que está acontecendo em segundo plano é o valor das probabilidades mais baixas que estão sendo ampliadas.
Se a sua distribuição de probabilidade de dados for exponencial ou a entropia de Laplace (como no caso de aprendizado profundo em que precisamos de distribuição de probabilidade em ponto acentuado), superará o Gini.
Para dar um exemplo, se você tiver 2 eventos, uma probabilidade .01 e outra probabilidade .99.
Em Gini Prob, o quadrado será .01 ^ 2 + .99 ^ 2, .0001 + .9801 significa que a menor probabilidade não desempenha nenhum papel, pois tudo é governado pela maioria.
Agora, no caso de entropia .01 * log (.01) +. 99 * log (.99) = .01 * (- 2) + .99 * (-. 00436) = -.02-.00432 agora neste caso as probabilidades mais baixas claramente vistas recebem uma melhor idade de peso.