Em alguns tutoriais, constatei que a inicialização do peso "Xavier" (artigo: Entendendo a dificuldade de treinar redes neurais profundas de avanço ) é uma maneira eficiente de inicializar os pesos das redes neurais.
Para camadas totalmente conectadas, havia uma regra prática nesses tutoriais:
em que representa a variação das ponderações para uma camada, inicializadas com uma distribuição normal e n i n , n o u t é a quantidade de neurónios no pai e na camada corrente.
Existem regras práticas semelhantes para as camadas convolucionais?
Estou lutando para descobrir o que seria melhor inicializar os pesos de uma camada convolucional. Por exemplo, em uma camada em que a forma dos pesos é (5, 5, 3, 8)
, então o tamanho do kernel é 5x5
, filtrando três canais de entrada (entrada RGB) e criando 8
mapas de recursos ... seria 3
considerada a quantidade de neurônios de entrada? Ou melhor 75 = 5*5*3
, porque a entrada são 5x5
patches para cada canal de cores?
Eu aceitaria ambos, uma resposta específica que esclareça o problema ou uma resposta mais "genérica" que explique o processo geral de encontrar a inicialização correta dos pesos e, de preferência, vincular fontes.