Nas notas da terceira semana de aula da aula Coursera Machine Learning de Andrew Ng , um termo é adicionado à função de custo para implementar a regularização:
As notas da palestra dizem:
Também podemos regularizar todos os nossos parâmetros teta em um único somatório:
tarde, 2 m são aplicados aotermo de regularização de redes neurais:
Lembre-se de que a função de custo para regressão logística regularizada era:
Para redes neurais, será um pouco mais complicado:
- Por que a metade constante é usada aqui? Para que seja cancelado na derivada ?
- Por que a divisão por exemplos de treinamento? Como a quantidade de exemplos de treinamento afeta as coisas?