O treinamento Greedy Layer-Wise de redes profundas é necessário para o treinamento bem-sucedido ou a inclinação estocástica é suficiente?


8

É possível obter resultados de última geração usando apenas a propagação traseira (sem pré-treinamento )?

Ou será que todas as abordagens de quebra de recordes usam alguma forma de pré-treinamento?

A propagação traseira é boa o suficiente?

Respostas:


8

O pré-treinamento não é mais necessário . Seu objetivo era encontrar uma boa inicialização para os pesos da rede, a fim de facilitar a convergência quando um alto número de camadas fosse empregado. Atualmente, temos ReLU , normalização de abandono e lote , os quais contribuem para resolver o problema do treinamento de redes neurais profundas. Citação da postagem do reddit vinculada acima (pelo vencedor do desafio Galaxy Zoo Kaggle):

Eu diria que a “era do pré-treinamento”, que começou por volta de 2006, terminou no início dos anos 10, quando as pessoas começaram a usar as unidades lineares retificadas (ReLUs) e depois desistiram, e descobriram que o pré-treinamento não era mais benéfico para isso. tipo de redes.

No artigo da ReLU (link acima):

redes retificadoras profundas podem alcançar seu melhor desempenho sem exigir nenhum pré-treinamento não supervisionado

Com isso dito, não é mais necessário , mas ainda pode melhorar o desempenho em alguns casos em que há muitas amostras não supervisionadas (não identificadas), como visto neste artigo .


Esta é uma boa resposta, mas acho que seria ainda melhor se você encontrasse uma referência acadêmica, em vez de um tópico do Reddit.
Sycorax diz Restabelecer Monica

Os 3 acima não são suficientes? Está escrito até no resumo do primeiro.
Rcpinto 31/08/16

A revisão é exatamente o tipo de apoio à alegação de que "o pré-treinamento não é mais necessário" que eu esperava. Obrigado por contribuir para o nosso site.
Sycorax diz Reinstate Monica em

1
Aqui está uma pergunta relacionada: o pré-treinamento está fazendo o mesmo que o abandono (em algum sentido)?

Essa resposta está muito errada ou, na melhor das hipóteses, enganosa; BN, Dropout, etc, desempenham papéis amplamente ortogonais ao pré-treinamento, onde este último permite o aprendizado de recursos transferíveis . Exemplo: codificador automático de auto-codificador de séries temporais de redução de dimensionalidade, redutor de dimensionalidade e dados perdidos, colocado na entrada antes de uma rede neural do classificador; o classificador aprende características discriminatórias , muito distintas das do autoencoder.
OverLordGoldDragon
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.