Sem termo de regularização para unidade de viés na rede neural


13

De acordo com este tutorial sobre aprendizado profundo , a redução de peso (regularização) geralmente não é aplicada aos termos de viés b por quê?

Qual é o significado (intuição) por trás disso?


Acho que já vi uma pergunta muito semelhante antes, mas não consigo encontrá-la ... Talvez você devesse revisar perguntas relacionadas e encontrar a resposta então. Além disso, talvez isso possa ser um pouco útil.
Richard Hardy

Respostas:


13

O sobreajuste geralmente requer que a saída do modelo seja sensível a pequenas alterações nos dados de entrada (ou seja, para interpolar exatamente os valores-alvo, você tende a precisar de muita curvatura na função ajustada). Os parâmetros de viés não contribuem para a curvatura do modelo, portanto, geralmente há pouco sentido em regularizá-los.


5

A motivação por trás de L2 (ou L1) é que, restringindo os pesos, restringindo a rede, é menos provável que você se ajuste demais. Faz pouco sentido restringir os pesos dos vieses, uma vez que os vieses são fixos (por exemplo, b = 1), portanto, funcionam como interceptações de neurônios, que fazem sentido receber uma maior flexibilidade.


1

Eu acrescentaria que o termo tendencioso é frequentemente inicializado com uma média de 1em vez de 0, portanto, podemos querer regularizá-lo de forma a não ficar muito longe de um valor constante 1como fazer 1/2*(bias-1)^2ao invés de 1/2*(bias)^2.

Talvez isso substitua o -1 peça por uma subtração à média dos vieses possa ajudar, talvez uma média por camada ou uma média geral. No entanto, esta é apenas uma hipótese que estou fazendo (sobre a subtração média).

Isso tudo depende da função de ativação também. Por exemplo: os sigmóides podem ser ruins aqui para gradientes de fuga se os desvios forem regularizados para compensações constantes altas.


0

O tutorial diz que "a aplicação da redução de peso nas unidades de polarização geralmente faz apenas uma pequena diferença na rede final"; portanto, se isso não ajudar, você poderá parar de fazê-lo para eliminar um hiperparâmetro. Se você acha que regularizar o deslocamento ajudaria na sua configuração, faça uma validação cruzada; não há mal em tentar.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.