Referindo-se às notas do curso de Stanford sobre Redes neurais convolucionais para reconhecimento visual , um parágrafo diz:
"Infelizmente, as unidades ReLU podem ser frágeis durante o treinamento e podem" morrer ". Por exemplo, um grande gradiente que flui através de um neurônio ReLU pode fazer com que os pesos sejam atualizados de forma que o neurônio nunca seja ativado em nenhum ponto de dados novamente. Se isso acontece, o gradiente que flui através da unidade será para sempre zero a partir desse ponto. Ou seja, as unidades ReLU podem morrer irreversivelmente durante o treinamento, pois podem ser eliminadas do coletor de dados. Por exemplo, você pode achar que até 40 % da sua rede pode estar "morta" (por exemplo, neurônios que nunca são ativados em todo o conjunto de dados de treinamento) se a taxa de aprendizado estiver muito alta. Com uma configuração adequada da taxa de aprendizado, isso é menos frequente ".
O que significa morrer de neurônios aqui?
Você poderia fornecer uma explicação intuitiva em termos mais simples.