Casos de uso modernos de máquinas de Boltzmann restritas (RBM)?

16

Antecedentes: Muitas pesquisas modernas nos últimos ~ 4 anos (pós- alexnet ) parecem ter deixado de usar o pré-treinamento generativo para redes neurais para obter resultados de classificação de ponta.

Por exemplo, os principais resultados para o mnist aqui incluem apenas 2 artigos dos 50 principais que parecem usar modelos generativos, sendo ambos RBMs. Os outros 48 trabalhos vencedores são sobre diferentes arquiteturas discriminativas de avanço de alimentação, com muito esforço para encontrar melhores / novas inicializações de peso e funções de ativação diferentes do sigmóide usado no RBM e em muitas redes neurais mais antigas.

Pergunta: Existe alguma razão moderna para usar mais máquinas Restricted Boltzmann?

Caso contrário, existe uma modificação de fato que se possa aplicar a essas arquiteturas de feed forward para tornar alguma de suas camadas generativa?

Motivação: pergunto porque alguns dos modelos que estou vendo disponíveis, geralmente variantes no RBM, não têm necessariamente contrapartidas discriminatórias análogas óbvias a essas camadas / modelos generativos e vice-versa. Por exemplo:

mcRBM
ssRBM
CRBM (embora se possa argumentar que a CNN usou arquiteturas de feed forward é a arquitetura análoga discriminativa)

Além disso, esses também foram claramente pré-alexnet, de 2010, 2011 e 2009, com respeito.

— user27886
fonte

3

Por uma questão de diversão, criei um NN de avanço de feed generativo por meio de regressão automática. power2predict.edublogs.org/2016/06/26/...

— Chris

6

Essa é uma pergunta antiga, mas como ela pede essencialmente 'melhores práticas', e não o que é realmente tecnicamente possível (ou seja, não precisa de muito foco de pesquisa), as melhores práticas atuais são algo como:

Normalmente, os RBMs não são usados atualmente
modelos lineares (regressão linear, regressão logística) são usados sempre que possível
caso contrário, redes de feed-forward profundas com camadas como camadas totalmente conectadas, camadas convolucionais e lançando algum tipo de camada de regularização, como abandono e normalização de lotes recentemente
é claro, com camadas de ativação intermediárias, normalmente ReLU, mas tanh e sigmoid também são usados
e provavelmente alguns pools máximos (nem sempre: pools médios e outros também são usados)

Para usos generativos, técnicas comuns incluem:

GAN e seus zilhões de variantes, http://www.cs.toronto.edu/~dtarlow/pos14/talks/goodfellow.pdf
codificadores automáticos, mas recentemente eles tendem a ser substituídos por:
- auto-codificadores variacionais, VAE, https://arxiv.org/abs/1312.6114
- CNNs generativas, wavenet: https://deepmind.com/blog/wavenet-generative-model-raw-audio/
RNNs, por exemplo, seq2seq https://arxiv.org/pdf/1409.3215v3.pdf

— Hugh Perkins
fonte

1

Encontrei recentemente este artigo sobre "Máquinas Adversárias Codificadas por Boltzmann", que integra RBMs com CNNs como modelo generativo.

Os autores mostram que é matematicamente "melhor" em alguns aspectos, e mostram alguns exemplos de brinquedos nos quais o BEAM parece muito mais capaz de aprender com precisão a distribuição de dados em comparação com outros modelos GAN.

O benchmark "mundo real" dos rostos da CelebA foi muito menos impressionante - não está claro que o BEAM se sai melhor ou até tão bem quanto outros GANs populares. No entanto, o uso de RBMs nessa configuração é certamente interessante.

— shimao
fonte

você acha que essa falha é atribuída ao espaço de busca do BEAM, permitindo um maior conjunto de graus de liberdade intrínseco à definição do modelo?

— Vass