Eu sabia que a Residual Network (ResNet) tornou popular a inicialização normal de He. No ResNet, a inicialização normal é usada , enquanto a primeira camada usa a inicialização uniforme.
Examinei os artigos da ResNet e os artigos "Investigando profundamente os retificadores" (artigo de inicialização He), mas não encontrei nenhuma menção no init normal versus no init uniforme.
Além disso:
A Normalização em lote nos permite usar taxas de aprendizado muito mais altas e ter menos cuidado com a inicialização.
No resumo do artigo sobre Normalização em lote, é dito que a Normalização em lote nos permite ter menos cuidado com a inicialização.
O próprio ResNet ainda cuida de quando usar init normal versus init uniforme (em vez de apenas ir com o init uniforme).
Assim:
- Quando usar a inicialização distribuída normal (He ou Glorot) sobre a inicialização uniforme?
- O que são efeitos de inicialização com distribuição normal com a Normalização em lote?
Notas à parte:
- É rima usar o init normal com a Normalização em Lote, mas não encontrei nenhum documento para apoiar esse fato.
- Eu sabia que o ResNet usa He init sobre Glorot init porque ele init se sai melhor em uma rede profunda.
- Eu entendi sobre Glorot init vs Ele init .
- Minha pergunta é sobre init Normal vs Uniform.