Atualmente, estou usando o XGBoost para previsão de riscos, parece estar fazendo um bom trabalho no departamento de classificação binária, mas as saídas de probabilidade estão muito longe, ou seja, alterar o valor de um recurso em uma observação em uma quantidade muito pequena pode aumentar a probabilidade salto de saída de 0,5 para 0,99.
Eu mal vejo saídas na faixa de 0,6-0,8. Em todos os casos, a probabilidade é menor que 0,99 ou 1.
Estou ciente dos métodos de calibração pós-treinamento, como Escalonamento de Platt e Correção Logística, mas estava pensando se há algo que eu possa ajustar no processo de treinamento do XGBoost.
Eu chamo o XGBoost de diferentes idiomas usando o FFI, por isso seria bom se eu pudesse resolver esse problema sem introduzir outras bibliotecas de calibração, por exemplo, alterando a métrica de avaliação da AUC para a perda de log.
XGBoost
é bastante robusto contra discrepantes, quando comparado a outros métodos de baunilha, como SVM
.