Por que pesos iniciais na rede neural são randomizados?


10

Isso pode parecer bobagem para alguém que tem muita experiência com redes neurais, mas me incomoda ...

Quero dizer, randomizar pesos iniciais pode fornecer melhores resultados que seriam um pouco mais próximos da aparência da rede treinada, mas também pode ser exatamente o oposto do que deveria ser, enquanto 0,5 ou alguma outra média para a faixa de peso razoável o valor soaria como uma boa configuração padrão ...

Por que os pesos iniciais dos neurônios estão sendo randomizados, em vez de 0,5 para todos eles?


Qual foi o problema com minha edição? Você acha que não pode ser melhorado?
nbro

@nbro adiciona várias perguntas, o que torna muito largo ...
Matas Vaitkevicius

Que perguntas eu adicionei que não estão presentes na sua postagem? Acabei de reformular como perguntas o que você declarou como hipóteses.
nbro

A propósito, seu texto nem está correto. Os pesos não estão sendo randomizados, mas estão sendo inicializados aleatoriamente. Estes são dois conceitos diferentes e você quis dizer o segundo. Minha edição foi feita para melhorar a redação também.
nbro

@ nbro Oi, olhe, eu não fiquei desapontado e certamente não queria ofendê-lo. Eu também sou ruim em fazer perguntas, palavras e tudo. Então, me desculpe se eu o ofendi.
Matas Vaitkevicius

Respostas:


6

Os pesos iniciais em uma rede neural são inicializados aleatoriamente porque os métodos baseados em gradiente comumente usados ​​para treinar redes neurais não funcionam bem quando todos os pesos são inicializados com o mesmo valor. Embora nem todos os métodos para treinar redes neurais sejam baseados em gradiente, a maioria deles é, e foi demonstrado em vários casos que inicializar a rede neural com o mesmo valor faz com que a rede demore muito mais tempo para convergir para uma solução ideal. Além disso, se você deseja treinar novamente sua rede neural porque ela ficou presa em mínimos locais, ela ficará presa nos mesmos mínimos locais. Pelas razões acima, não configuramos os pesos iniciais para um valor constante.

Referências: Por que a retropropagação não funciona quando você inicializa os pesos com o mesmo valor?


De fato, eles quebram se todos os pesos forem iguais.
Quonux 23/04/19

9

Você não deve atribuir tudo a 0,5 porque teria o problema "simetria de quebra".

http://www.deeplearningbook.org/contents/optimization.html

Talvez a única propriedade conhecida com total certeza seja que os parâmetros iniciais precisam " quebrar a simetria " entre diferentes unidades. Se duas unidades ocultas com a mesma função de ativação estiverem conectadas às mesmas entradas, essas unidades deverão ter parâmetros iniciais diferentes. Se eles tiverem os mesmos parâmetros iniciais, um algoritmo de aprendizado determinístico aplicado a um custo e modelo determinísticos atualizará constantemente essas duas unidades da mesma maneira. Mesmo que o modelo ou o algoritmo de treinamento seja capaz de usar a estocástica para calcular atualizações diferentes para unidades diferentes (por exemplo, se alguém treinar com desistência), geralmente é melhor inicializar cada unidade para calcular uma função diferente de todas as outras unidades. Isso pode ajudar a garantir que nenhum padrão de entrada seja perdido no espaço nulo da propagação direta e nenhum padrão de gradiente seja perdido no espaço nulo da propagação traseira.


2

Essa é uma pergunta muito profunda. Recentemente, houve uma série de artigos com prova de convergência da descida do gradiente para redes profundas super-parametrizadas (por exemplo, a Gradient Descent encontra mínimos globais de redes neurais profundas , uma teoria da convergência para o aprendizado profundo via excesso de parametrização ou a descida estocástica do gradiente otimiza a profundidade excessivamente parametrizada Redes ReLU ). Todos eles condicionam a prova da distribuição gaussiana aleatória de pesos. É importante que as provas dependam de dois fatores:

  1. Pesos aleatórios tornam o ReLU mapeamento estatisticamente compressivo (até transformação linear)

  2. Pesos aleatórios preservam a separação da entrada para qualquer distribuição de entrada - ou seja, se as amostras de entrada são distinguíveis, a propagação da rede não as tornará indistinguíveis

Essas propriedades muito difíceis de reproduzir com matrizes determinísticas, e mesmo que sejam reproduzíveis com matrizes determinísticas, o espaço NULL (domínio de exemplos contraditórios) provavelmente tornaria o método impraticável, e a preservação mais importante dessas propriedades durante a descida do gradiente provavelmente tornaria o método impraticável. Mas, no geral, é muito difícil, mas não impossível, e pode exigir alguma pesquisa nessa direção. Em situação análoga, houve alguns resultados para a Propriedade de Isometria Restrita para matrizes determinísticas no sensor comprimido .

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.