O parâmetro de taxa de aprendizado ( ) no Gradient Boosting reduz a contribuição de cada novo modelo de base - tipicamente uma árvore rasa - que é adicionada na série. Foi demonstrado que aumenta drasticamente a precisão do conjunto de testes, o que é compreensível, pois em etapas menores, o mínimo da função de perda pode ser alcançado com mais precisão.
Não entendo por que a taxa de aprendizado é considerada um parâmetro de regularização ? Citando os elementos de aprendizagem estatística , seção 10.12.1, p.364:
Controlar o número de árvores não é a única estratégia de regularização possível. Assim como nas redes neurais e de regressão de crista, também podem ser empregadas técnicas de retração. Valores menores de (mais encolhimento) em resultado do risco de formação maior para o mesmo número de iterações M . Assim, ν e M controlam o risco de previsão nos dados de treinamento.
Regularização significa "maneira de evitar o ajuste excessivo", portanto, é claro que o número de iterações é crucial nesse sentido (um M alto demais leva ao ajuste excessivo). Mas:
Valores menores de (mais encolhimento) em resultado do risco de formação maior para o mesmo número de iterações M .
significa apenas que, com baixas taxas de aprendizado, são necessárias mais iterações para obter a mesma precisão no conjunto de treinamento. Então, como isso se relaciona com a super adaptação?