O que é pré-treinamento e como você pré-treina uma rede neural?

10

Entendo que o pré-treinamento é usado para evitar alguns dos problemas do treinamento convencional. Se eu usar a retropropagação com, digamos, um autoencodificador, sei que vou ter problemas de tempo porque a retropropagação é lenta, e também que posso ficar preso no ótimo local e não aprender certos recursos.

O que não entendo é como pré-treinamos uma rede e o que especificamente fazemos para pré-treinar. Por exemplo, se recebermos uma pilha restrita de máquinas Boltzmann, como prepararíamos essa rede?

— Michael Yousef
fonte

2

A menos que você esteja em um ambiente com apenas algumas amostras etiquetadas e muitas não etiquetadas, o pré-treinamento é considerado obsoleto. Se esse não for o caso, o uso de uma função de transferência de retificador e otimizadores avançados (rmsprop, adadelta, adam) funciona igualmente bem para redes neurais profundas.

f (x) = max (x, 0)

$f(x) = \max(x, 0)$

— precisa saber é

Sim, estou trabalhando com a suposição de que há uma grande quantidade de amostras não rotuladas e poucas ou nenhuma amostra rotulada.

— 22815 Michael Yousef

2

Você começa treinando cada RBM na pilha separadamente e depois combina em um novo modelo que pode ser ajustado ainda mais.

Suponha que você tenha 3 RBMs, você treina RBM1 com seus dados (por exemplo, um monte de imagens). O RBM2 é treinado com a saída do RBM1. O RBM3 é treinado com a saída do RBM2. A idéia é que cada modelo de RBM represente as imagens e os pesos que eles aprendem ao fazê-lo sejam úteis em outras tarefas discriminatórias, como classificação.

— mnagaraj
fonte

0

O pré-treinamento de um RBM empilhado é minimizar avidamente a camada de energia definida, ou seja, maximizar a probabilidade. G. Hinton propôs o algoritmo CD-k, que pode ser visto como uma única iteração da amostragem de Gibbs.

— Mou
fonte

Portanto, o pré-treinamento do RBM empilhado nos permite minimizar a energia definida e obter melhores resultados. E então o algoritmo de Divergência Contrastante de Hinton é como nós realmente treinamos. Como exatamente a pré-formação leva em consideração o aprendizado de recursos extras? Presumo que, para a questão da velocidade, o algoritmo do CD seja muito mais rápido que a retropropagação.

— 22815 Michael Yousef