O abandono não remove realmente os neurônios, é apenas que esses neurônios em particular não desempenham nenhum papel (não são ativados) para um determinado lote de dados.
Exemplo - Suponha que exista uma estrada de 8 faixas - Quando os caminhões chegam, eles passam pelas faixas 1,2,4,6,7, quando os carros chegam, eles passam pelas faixas 2,3,4,7,8 e quando as bicicletas chegam , eles passam pelas faixas 1,2,5,8. Portanto, independentemente de qualquer veículo, todas as faixas estão lá, mas apenas algumas são usadas.
Da mesma forma, todos os neurônios são usados em todo o modelo, mas apenas um subconjunto de neurônios é ativado para um lote específico de dados. E o modelo não é reduzido posteriormente, a complexidade do modelo permanece como está.
Por que usar a desistência?
Conforme apresentado no livro Deep learning de Ian Goodfellow,
o abandono é mais eficaz do que outros regularizadores computacionalmente baratos, como decaimento de peso, restrições de normas de filtro e regularização de atividades esparsas.
Ele também diz:
Uma vantagem do abandono é que ele é muito computacionalmente barato.
Outra vantagem significativa do abandono é que ele não limita significativamente o tipo de modelo ou procedimento de treinamento que pode ser usado. Funciona bem com praticamente qualquer modelo que use uma representação distribuída e possa ser treinado com descida de gradiente estocástico. Isso inclui redes neurais feedforward, modelos probabilísticos, como máquinas Boltzmann restritas (Srivastava et al., 2014) e redes neurais recorrentes (Bayer e Osendorfer, 2014; Pascanu et al., 2014a).
Este livro diz:
A idéia principal é que a introdução de ruído nos valores de saída de uma camada pode quebrar padrões de ocorrência que não são significativos, que a rede começará a memorizar se nenhum ruído estiver presente.