Uma rede neural idealmente projetada contém zero neurônios ReLU "mortos" quando treinados?


8

Em geral, devo treinar minha rede neural com menos neurônios, para que ela tenha menos neurônios ReLU mortos? Eu li opiniões conflitantes sobre ReLUs mortos. Algumas fontes dizem que ReLUs mortos são bons porque incentivam a escarsidade. Outros dizem que são ruins porque as RELUs mortas estão mortas para sempre e inibem o aprendizado. Existe um meio feliz?

Respostas:


7

Há uma diferença entre ReLUs inoperantes e ReLUs que são silenciosas em muitas entradas - mas não em todas -. As ReLUs inativas devem ser evitadas, enquanto as ReLUs praticamente silenciosas podem ser úteis devido à escassez que elas induzem.

ReLUs inoperantes entraram em um regime de parâmetros em que estão sempre no domínio negativo da função de ativação. Isso pode acontecer, por exemplo, se o viés for definido como um grande valor negativo. Como a função de ativação é zero para valores negativos, essas unidades são silenciosas para todas as entradas. Quando uma ReLU é silenciosa, o gradiente da função de perda em relação aos parâmetros é zero, portanto, nenhuma atualização de parâmetro ocorrerá com o aprendizado baseado em gradiente. Como as ReLUs mortas são silenciosas para todas as entradas, elas ficam presas nesse regime.

Compare isso com uma ReLU silenciosa em muitas entradas, mas não em todas. Nesse caso, o gradiente ainda é zero quando a unidade está silenciosa. Se estivermos usando um procedimento de aprendizado on-line, como descida de gradiente minibatch / estocástico, nenhuma atualização de parâmetro ocorrerá para entradas que causem silêncio na unidade. Porém, ainda são possíveis atualizações para outras entradas, nas quais a unidade está ativa e o gradiente é diferente de zero.

Como as ReLUs mortas são silenciosas para todas as entradas, elas não contribuem para a rede e são desperdiçadas. De uma perspectiva teórica da informação, qualquer unidade que tenha o mesmo valor de saída para todas as entradas (zero ou não) não carrega informações sobre a entrada. As ReLUs praticamente silenciosas se comportam de maneira diferente para entradas diferentes e, portanto, mantêm a capacidade de transportar informações úteis.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.