Qual é o benefício da distribuição normal truncada na inicialização de pesos em uma rede neural?

13

Ao inicializar pesos de conexão em uma rede neural de feedforward, é importante inicializá-los aleatoriamente para evitar simetrias que o algoritmo de aprendizado não seria capaz de quebrar.

A recomendação que vi em vários locais (por exemplo, no tutorial MNIST do TensorFlow ) é usar a distribuição normal truncada usando um desvio padrão de , em que é o número de entradas para o dada camada de neurônios. $\dfrac{1}{\sqrt{N}}$ $N$

Acredito que a fórmula de desvio padrão garante que os gradientes retropropagados não se dissolvam nem amplifiquem muito rapidamente. Mas não sei por que estamos usando uma distribuição normal truncada em oposição a uma distribuição normal regular. É para evitar raros pesos extremos?

— MiniQuark
fonte

Você pode fornecer a fonte desta recomendação e / ou a cotação direta?

— Tim

+ Tim Bom ponto, eu adicionei um link para um exemplo. Acredito que também vi essa recomendação em um artigo sobre boas práticas de redes neurais (embora não seja possível encontrá-las).

— MiniQuark 7/08/16

13

Eu acho que é sobre saturação dos neurônios. Pense em você ter uma função de ativação como sigmoide.

Se seu valor de peso obtiver um valor> = 2 ou <= - 2, seu neurônio não aprenderá. Portanto, se você truncar sua distribuição normal, não terá esse problema (pelo menos a partir da inicialização) com base na sua variação. Eu acho que é por isso, é melhor usar normal truncado em geral.

— Güngör Basa
fonte

Sim, isso faz sentido, obrigado. Eu acho que você quis dizer "valor> = 2", não 1.

— MiniQuark 29/03

sim é suposto ser de valor> = 2

— Güngör Basa

4

O benefício de usar a distribuição normal truncada é impedir a geração de "neurônios mortos" devido ao uso de relu_logits , explicado aqui .

Geralmente, deve-se inicializar pesos com uma pequena quantidade de ruído para quebra de simetria e impedir 0 gradientes. Como estamos usando neurônios ReLU, também é uma boa prática inicializá-los com um viés inicial ligeiramente positivo para evitar "neurônios mortos".

— Lerner Zhang
fonte

Não sei ao certo como o uso do truncado_normal evitará neurônios mortos: ele não adicionará nenhum "viés inicial ligeiramente positivo". Você pode por favor elaborar?

— MiniQuark 01/03

1

porque a retropropagação atualizará apenas os neurônios 'vivos', com alguma contribuição diferente de zero para a propagação #

— Jason Jason