Apenas adicionando à resposta de @Fabian Werner - você se lembra de fazer a regra de Riemann Sums em uma introdução à integração? Bem, isso também foi um conjunto de instruções if uniformemente particionadas que você usa para calcular a área sob a função.
Se você desenhar uma função 1D e desenhar as partições uniformemente, o que você encontrará é que, em áreas onde a função tem pouco gradiente, as partições vizinhas podem ser mescladas sem uma grande perda de precisão. Da mesma forma, em partições com alto gradiente, adicionar mais partições melhorará significativamente a aproximação.
Qualquer conjunto de partições aproximará a função, mas algumas são claramente melhores que outras.
Agora, mudando para os modelos CART - vemos dados na forma de pontos ruidosos dessa função e pedimos para aproximar a função. Ao adicionar muitas partições, podemos sobreaquecer e essencialmente executar um modelo de tipo vizinho mais próximo. Para evitar isso, limitamos o número de partições que nosso modelo pode usar (geralmente na forma de profundidade máxima e amostras mínimas por partição). Então agora, onde devemos colocar essas divisões? Essa é a questão abordada pelos critérios de divisão. Áreas com maior “complexidade” devem receber mais divisões, como regra geral, e é isso que gini, entropia etc. se esforçam para fazer.
Fazer previsões são apenas declarações if-else, mas no contexto do aprendizado de máquina que não é de onde vem o poder do modelo. O poder advém da capacidade do modelo de compensar o ajuste excessivo e insuficiente de maneira escalável e pode ser derivado em uma estrutura probabilística consistente com garantias teóricas no limite de dados. Finalmente, se adotamos uma visão abstrata e abstrata dos modelos de ML, podemos dizer redes neurais, métodos de núcleo, abordagens de Monte Carlo e muito mais são simplesmente adição e multiplicação. Infelizmente, essa não é uma visão muito útil da literatura.