A definição do parâmetro min_child_weight no xgboost é fornecida como:
soma mínima do peso da instância (hessian) necessária em uma criança. Se a etapa de partição em árvore resultar em um nó folha com a soma do peso da instância menor que min_child_weight, o processo de criação desistirá de particionar mais. No modo de regressão linear, isso simplesmente corresponde ao número mínimo de instâncias necessárias para estar em cada nó. Quanto maior, mais conservador será o algoritmo.
Li algumas coisas no xgboost, incluindo o artigo original (consulte a fórmula 8 e a logo após a equação 9), esta pergunta e muitas coisas a ver com o xgboost que aparecem nas primeiras páginas de uma pesquisa no google. ;)
Basicamente, eu ainda não estou feliz por que estamos impondo uma restrição à soma do hessian? Meu só pensava no minuto a partir do trabalho original é que ele se relaciona com a secção do esboço quantil ponderada (e a reformulação da equação 3 como perda quadrado ponderado) que tem como o 'peso' de cada exemplo.
Uma outra pergunta diz respeito a por que é simplesmente o número de instâncias no modo de regressão linear? Eu acho que isso está relacionado à segunda derivada da equação da soma dos quadrados?