Respostas:
O abandono escolar significa que cada ponto de dados individual é usado apenas para ajustar um subconjunto aleatório dos neurônios. Isso é feito para tornar a rede neural mais parecida com um modelo de conjunto.
Ou seja, assim como uma floresta aleatória calcula a média dos resultados de muitas árvores de decisão individuais, é possível ver uma rede neural treinada usando a evasão como calcular a média dos resultados de muitas redes neurais individuais (com 'resultados' entendidos como significando ativações em todas as camadas , em vez de apenas a camada de saída).
O artigo original 1 que propôs o abandono da rede neural é intitulado: Abandono : Uma maneira simples de impedir o excesso de ajuste das redes neurais . Esse título explica em uma frase o que o Dropout faz. O abandono funciona selecionando e removendo aleatoriamente neurônios em uma rede neural durante a fase de treinamento. Observe que o abandono não é aplicado durante o teste e que a rede resultante não abandona como parte da previsão.
Essa remoção / abandono aleatório de neurônios evita a co-adaptação excessiva dos neurônios e, ao fazê-lo, reduz a probabilidade de sobreaquecimento da rede .
A remoção aleatória de neurônios durante o treinamento também significa que, a qualquer momento, apenas uma parte da rede original é treinada. Isso faz com que você acabe treinando várias sub-redes, por exemplo:
É a partir desse treinamento repetido de sub-redes, em oposição a toda a rede, que a noção de abandono da rede neural é uma espécie de técnica de conjunto. Ou seja, o treinamento das sub-redes é semelhante ao treinamento de numerosos algoritmos relativamente fracos / modelos e combinando-os para formar um algoritmo mais poderoso que as partes individuais.
Referências:
1 : Srivastava, Nitish, et al. "Abandono: uma maneira simples de impedir que redes neurais se ajustem demais." The Journal of Machine Learning Research 15.1 (2014): 1929-1958.
Tentarei responder às suas perguntas usando as idéias de Geoffrey Hinton no jornal de abandono escolar e sua classe Coursera.
Qual é a finalidade do método de "desistência"?
Redes neurais profundas com um grande número de parâmetros são sistemas de aprendizado de máquina muito poderosos. No entanto, o ajuste excessivo é um problema sério nessas redes. As redes grandes também são lentas de usar, dificultando o super ajuste, combinando as previsões de muitas redes neurais grandes e diferentes no momento do teste. O abandono é uma técnica para solucionar esse problema.
portanto, é uma técnica de regularização que aborda o problema de super ajuste (alta variação).
Como isso melhora o desempenho geral?
por uma melhor generalização e não caia na armadilha do excesso de encaixe.
Há ótimas respostas aqui. A explicação mais simples que posso dar para o abandono é que ele exclui aleatoriamente alguns neurônios e suas conexões da rede, durante o treinamento, para impedir que os neurônios se "co-adaptem" demais. Ele tem o efeito de fazer com que cada neurônio se aplique de maneira mais geral e é excelente para interromper o ajuste excessivo para grandes redes neurais.