Estou estudando árvores de classificação e regressão, e uma das medidas para a localização da divisão é a pontuação GINI.
Agora, estou acostumado a determinar a melhor localização de divisão quando o log da razão de probabilidade dos mesmos dados entre duas distribuições é zero, o que significa que a probabilidade de associação é igualmente provável.
Minha intuição diz que deve haver algum tipo de conexão, que o GINI precisa ter uma boa base em uma teoria matemática da informação (Shannon), mas eu não o entendo o suficiente para derivar o relacionamento.
Questões:
- Qual é a derivação dos "primeiros princípios" do escore de impureza GINI como uma medida para a divisão?
- Como a pontuação GINI se relaciona com o log da razão de verossimilhança ou outros fundamentos teóricos da informação (Shannon Entropy, pdf e entropia cruzada fazem parte deles)?
Referências:
- Como é definido o critério Gini ponderado?
- Matemática por trás das árvores de classificação e regressão
- http://www.cs.put.poznan.pl/jstefanowski/sed/DM-5-newtrees.pdf
(adicionado) - http://www.ibe.med.uni-muenchen.de/organisation/mitarbeiter/020_professuren/boulesteix/pdf/gini.pdf
- https://www.youtube.com/watch?v=UMtBWQ2m04g
- http://www.ius-migration.ch/files/content/sites/imi/files/shared/documents/papers/Gini_index_fulltext.pdf
- /programming/4936788/decision-tree-learning-and-impurity
A entropia de Shannon é descrita como:
Estendendo isso para o caso multivariado, obtemos:
Entropia condicional é definida da seguinte maneira:
O log da razão de verossimilhanças é usado para detecção abrupta de alterações e é derivado usando-os. (Eu não tenho derivação na minha frente.)
Impureza GINI:
- A forma geral de impureza GINI é
Pensamentos:
- A divisão é feita em uma medida de impureza. Alta "pureza" é provavelmente o mesmo que baixa entropia. A abordagem provavelmente está relacionada à minimização da entropia.
- É provável que a distribuição da base assumida seja uniforme, ou possivelmente com a mão, gaussiana. Eles provavelmente estão fazendo uma mistura de distribuições.
- Será que a derivação do gráfico de Shewhart pode ser aplicada aqui?
- A GINI Impurity se parece com a integral da função de densidade de probabilidade para uma distribuição binomial com 2 tentativas e um sucesso.
(adicional)
- O formulário também é consistente com uma distribuição beta-binomial que é um conjugado anterior para uma distribuição hipergeométrica. Testes hipergeométricos são frequentemente usados para determinar quais amostras estão sobre ou sub-representadas em uma amostra. Há também uma relação com o teste exato de Fisher, seja o que for (note para si mesmo, vá aprender mais sobre isso).
Edit: Eu suspeito que existe uma forma de GINI que funciona muito bem com lógica digital e / ou rb-trees. Espero explorar isso em um projeto de classe neste outono.