Eu li alguns artigos sobre a inicialização do kernel e muitos documentos mencionam que eles usam a regularização L2 do kernel (geralmente com ).
Alguém faz algo diferente do que inicializar o viés com zero constante e não regularizá-lo?
Documentos de inicialização do kernel
- Mishkin e Matas: Tudo o que você precisa é de um bom inic
- Xavier Glorot e Yoshua Bengio: Entendendo a dificuldade de treinar redes neurais profundas de feedforward
- He et al: Investigando profundamente os retificadores: superando o desempenho em nível humano na classificação ImageNet