O treinamento Greedy Layer-Wise de redes profundas é necessário para o treinamento bem-sucedido ou a inclinação estocástica é suficiente?

É possível obter resultados de última geração usando apenas a propagação traseira (sem pré-treinamento )?

Ou será que todas as abordagens de quebra de recordes usam alguma forma de pré-treinamento?

A propagação traseira é boa o suficiente?

O pré-treinamento não é mais necessário . Seu objetivo era encontrar uma boa inicialização para os pesos da rede, a fim de facilitar a convergência quando um alto número de camadas fosse empregado. Atualmente, temos ReLU , normalização de abandono e lote , os quais contribuem para resolver o problema do treinamento de redes neurais profundas. Citação da postagem do reddit vinculada acima (pelo vencedor do desafio Galaxy Zoo Kaggle):

Eu diria que a “era do pré-treinamento”, que começou por volta de 2006, terminou no início dos anos 10, quando as pessoas começaram a usar as unidades lineares retificadas (ReLUs) e depois desistiram, e descobriram que o pré-treinamento não era mais benéfico para isso. tipo de redes.

No artigo da ReLU (link acima):

redes retificadoras profundas podem alcançar seu melhor desempenho sem exigir nenhum pré-treinamento não supervisionado

Com isso dito, não é mais necessário , mas ainda pode melhorar o desempenho em alguns casos em que há muitas amostras não supervisionadas (não identificadas), como visto neste artigo .

— rcpinto
fonte

Esta é uma boa resposta, mas acho que seria ainda melhor se você encontrasse uma referência acadêmica, em vez de um tópico do Reddit.

— Sycorax diz Restabelecer Monica

Os 3 acima não são suficientes? Está escrito até no resumo do primeiro.

— Rcpinto 31/08/16

A revisão é exatamente o tipo de apoio à alegação de que "o pré-treinamento não é mais necessário" que eu esperava. Obrigado por contribuir para o nosso site.

— Sycorax diz Reinstate Monica em

Aqui está uma pergunta relacionada: o pré-treinamento está fazendo o mesmo que o abandono (em algum sentido)?

Essa resposta está muito errada ou, na melhor das hipóteses, enganosa; BN, Dropout, etc, desempenham papéis amplamente ortogonais ao pré-treinamento, onde este último permite o aprendizado de recursos transferíveis . Exemplo: codificador automático de auto-codificador de séries temporais de redução de dimensionalidade, redutor de dimensionalidade e dados perdidos, colocado na entrada antes de uma rede neural do classificador; o classificador aprende características discriminatórias , muito distintas das do autoencoder.

— OverLordGoldDragon