Entendo que o pré-treinamento é usado para evitar alguns dos problemas do treinamento convencional. Se eu usar a retropropagação com, digamos, um autoencodificador, sei que vou ter problemas de tempo porque a retropropagação é lenta, e também que posso ficar preso no ótimo local e não aprender certos recursos.
O que não entendo é como pré-treinamos uma rede e o que especificamente fazemos para pré-treinar. Por exemplo, se recebermos uma pilha restrita de máquinas Boltzmann, como prepararíamos essa rede?