De acordo com este tutorial sobre aprendizado profundo , a redução de peso (regularização) geralmente não é aplicada aos termos de viés b por quê?
Qual é o significado (intuição) por trás disso?
De acordo com este tutorial sobre aprendizado profundo , a redução de peso (regularização) geralmente não é aplicada aos termos de viés b por quê?
Qual é o significado (intuição) por trás disso?
Respostas:
O sobreajuste geralmente requer que a saída do modelo seja sensível a pequenas alterações nos dados de entrada (ou seja, para interpolar exatamente os valores-alvo, você tende a precisar de muita curvatura na função ajustada). Os parâmetros de viés não contribuem para a curvatura do modelo, portanto, geralmente há pouco sentido em regularizá-los.
A motivação por trás de L2 (ou L1) é que, restringindo os pesos, restringindo a rede, é menos provável que você se ajuste demais. Faz pouco sentido restringir os pesos dos vieses, uma vez que os vieses são fixos (por exemplo, b = 1), portanto, funcionam como interceptações de neurônios, que fazem sentido receber uma maior flexibilidade.
Eu acrescentaria que o termo tendencioso é frequentemente inicializado com uma média de 1
em vez de 0
, portanto, podemos querer regularizá-lo de forma a não ficar muito longe de um valor constante 1
como fazer 1/2*(bias-1)^2
ao invés de 1/2*(bias)^2
.
Talvez isso substitua o -1
peça por uma subtração à média dos vieses possa ajudar, talvez uma média por camada ou uma média geral. No entanto, esta é apenas uma hipótese que estou fazendo (sobre a subtração média).
Isso tudo depende da função de ativação também. Por exemplo: os sigmóides podem ser ruins aqui para gradientes de fuga se os desvios forem regularizados para compensações constantes altas.
O tutorial diz que "a aplicação da redução de peso nas unidades de polarização geralmente faz apenas uma pequena diferença na rede final"; portanto, se isso não ajudar, você poderá parar de fazê-lo para eliminar um hiperparâmetro. Se você acha que regularizar o deslocamento ajudaria na sua configuração, faça uma validação cruzada; não há mal em tentar.