O XGBoost para classificação é um modelo que combina os princípios de árvores de decisão e regressão logística.
A função de regressão logística calcula probabilidades que são lineares na escala de logit:
z= XWP (y= 1 | X) = 11 + exp( - z)
Diferentemente da regressão logística, os "recursos" em X são construídos como os nós terminais de um conjunto de árvores de decisão - portanto, cada linha de X coleta as folhas terminais de cada amostra; a linha é um vetor binário T -hot, para T o número de árvores. (Cada árvore do XGBoost é gerada de acordo com um algoritmo específico, mas isso não é relevante aqui.)
Existem n colunas no X , uma coluna para cada nó do terminal. Não há expressão para o número total de nós terminais, porque o número de nós pode variar entre árvores (e geralmente varia, na minha experiência).
Cada folha da árvore tem um "peso" associado. Esse peso é registrado em W . Para ser conforme com X , existem n elementos em W .
Ou, alternativamente, as probabilidades de log para uma amostra são a soma dos pesos de suas folhas terminais. A probabilidade da amostra pertencente à classe 1 é a transformação de logit inverso da soma.