Explicação do min_child_weight no algoritmo xgboost

A definição do parâmetro min_child_weight no xgboost é fornecida como:

soma mínima do peso da instância (hessian) necessária em uma criança. Se a etapa de partição em árvore resultar em um nó folha com a soma do peso da instância menor que min_child_weight, o processo de criação desistirá de particionar mais. No modo de regressão linear, isso simplesmente corresponde ao número mínimo de instâncias necessárias para estar em cada nó. Quanto maior, mais conservador será o algoritmo.

Li algumas coisas no xgboost, incluindo o artigo original (consulte a fórmula 8 e a logo após a equação 9), esta pergunta e muitas coisas a ver com o xgboost que aparecem nas primeiras páginas de uma pesquisa no google. ;)

Basicamente, eu ainda não estou feliz por que estamos impondo uma restrição à soma do hessian? Meu só pensava no minuto a partir do trabalho original é que ele se relaciona com a secção do esboço quantil ponderada (e a reformulação da equação 3 como perda quadrado ponderado) que tem $h_i$ como o 'peso' de cada exemplo.

Uma outra pergunta diz respeito a por que é simplesmente o número de instâncias no modo de regressão linear? Eu acho que isso está relacionado à segunda derivada da equação da soma dos quadrados?

machine-learning xgboost hessian

— maw501
fonte

Para uma regressão, a perda de cada ponto em um nó é

$\frac{1}{2}(y_i - \hat{y_i})^2$

$\hat{y_i}$ $1$

Para uma regressão logística binária, o hessian para cada ponto em um nó conterá termos como

$\sigma(\hat{y_i})(1 - \sigma(\hat{y_i}))$

$\sigma$ $\hat{y_i}$ $\sigma(\hat{y_i})$

O Hessian é uma coisa sensata a ser usada para regularizar e limitar a profundidade das árvores. Para a regressão, é fácil ver como você pode se ajustar demais se estiver sempre dividindo os nós com, digamos, apenas 1 observação. Da mesma forma, para classificação, é fácil ver como você pode se ajustar demais se insistir em dividir até que cada nó esteja puro.

— hahdawg
fonte

Obrigado pela resposta, não posso lhe dar um voto positivo devido à baixa reputação.

— precisa saber é

Oi @ maw501: Sem problemas, eu posso. Boa resposta Hahdawg!

— Catbuilts

Portanto, em um caso de dados altamente desequilibrados, qual é o seu intervalo proposto para o min_child_weight?

— Mahdi Baghbanzadeh

Quando no conjunto de dados desequilibrado, min_child_weight também deve incluir pesos? Obrigado! @hahdawg

— HanaKaze 22/03