Bom tutorial para máquinas de Boltzmann restritas (RBM)

10

Estou estudando a RBM (Restricted Boltzmann Machine) e estou tendo alguns problemas para entender os cálculos de probabilidade de log com relação aos parâmetros da RBM. Embora muitos trabalhos de pesquisa sobre RBM tenham sido publicados, não há etapas detalhadas dos derivativos. Depois de pesquisar online, consegui encontrá-los neste documento:

Fischer, A. & Igel, C. (2012). Uma introdução às máquinas restritas de Boltzmann. Em L. Alvarez et al. (Eds.): CIARP, LNCS 7441, pp. 14–36, Springer-Verlag: Berlin-Heidelberg. ( pdf )

No entanto, os detalhes deste documento são muito avançados para mim. Alguém pode me indicar um bom tutorial / conjunto de notas de aula sobre RBM?

Edit: @ David, a seção confusa é mostrada abaixo (equação 29 na página 26):

$\begin{aligned} \frac{\partial \ln L (θ | v)}{\partial w_{i j}} & = - \sum_{h} p (h | v) \frac{\partial E (v, h)}{\partial w_{i j}} + \sum_{v, h} p (v, h) \frac{\partial E (v, h)}{\partial w_{i j}} \\ = \sum_{h} p (h | v) h_{i} v_{j} - \sum_{v} p (v) \sum_{h} p (h | v) h_{i} v_{j} \\ (29) & = p (H_{i} = 1 | v) v_{j} - \sum_{v} p (v) p (H_{i} = 1 | v) v_{j} . \end{aligned}$ $\begin{align} \frac{\partial\ln\mathcal{L}(\theta|v)}{\partial w_{ij}} &= -\sum_h p(h|v)\frac{\partial E(v, h)}{\partial w_{ij}} + \sum_{v,h} p(v,h)\frac{\partial E(v,h)}{\partial w_{ij}} \\[5pt] &= \sum_h p(h|v)h_iv_j - \sum_v p(v) \sum_h p(h|v)h_iv_j \\[5pt] &= \color{orange}{\boxed{\color{black}{p(H_i=1|v)}}}v_j - \sum_v p(v) \color{orange}{\boxed{\color{black}{p(H_i=1|v)}}}v_j\; . \tag{29} \end{align}$

references rbm

— Upul
fonte

Você pode ser mais específico sobre quais etapas estão confundindo você?

— David J. Harris

11

uma boa leitura é o capítulo 5 de aprender arquiteturas profundas para AI ( iro.umontreal.ca/~bengioy/papers/ftml_book.pdf )

— dksahuji

@dksahuji obrigado por INFO, também prof: Bengio está escrevendo um DL e um rascunho inicial está disponível em iro.umontreal.ca/~bengioy/dlbook

— Upul

Este tutorial tem explicações sobre a matemática do RBM ( um tutorial sobre máquinas de Boltzmann restritas ).

— Jiang Xiang

7

Eu sei que é um pouco tarde, mas talvez ajude. Para obter o primeiro termo da sua equação, siga estas etapas: Assumimos que a independência condicional entre os existem unidades ocultas, dadas as unidades visíveis. Assim, podemos fatorar a distribuição condicional de probabilidade conjunta para os estados ocultos.

\begin{aligned} \sum_{h} p (h | v) h_{i} v_{j} & = v_{j} \sum_{h_{1}} . . . \sum_{h_{i}} . . . \sum_{h_{n}} p (h_{1}, . . ., h_{i}, . . . h_{n} | v) h_{i} \\ = v_{j} \sum_{h_{i}} \sum_{h_{_i}} p (h_{i}, h_{_i} | v) h_{i} \end{aligned}

$\begin{align} \sum_{\mathbf{h}} p(\mathbf{h} | \mathbf{v})h_iv_j &= v_j \sum_{h_1}...\sum_{h_i}...\sum_{h_n} p(h_1,...,h_i,...h_n | \mathbf{v}) h_i \\[5pt] &= v_j \sum_{h_i} \sum_{\mathbf{h_{\_ i}}}p(h_i, \mathbf{h_{\_i}} | \mathbf{v}) h_i \end{align}$

\begin{aligned} = v_{j} \sum_{h_{i}} \sum_{h_{_i}} p (h_{i} | v) h_{i} p (h_{_i} | v) \\ = v_{j} \sum_{h_{i}} p (h_{i} | v) h_{i} \sum_{h_{_i}} p (h_{_i} | v) \end{aligned}

$\begin{align} &= v_j \sum_{h_i} \sum_{\mathbf{h_{\_ i}}} p(h_i | \mathbf{v}) h_i \: p(\mathbf{h_{\_ i}}|\mathbf{v}) \\[5pt] &= v_j \sum_{h_i} p(h_i | \mathbf{v}) h_i \: \sum_{\mathbf{h_{\_ i}}} p(\mathbf{h_{\_ i}}|\mathbf{v}) \end{align}$ O último termo é igual a , pois estamos somando todos os estados. Assim, o que resta, é o primeiro termo. Como usa apenas os estados e , terminamos com:

1

$1$

h_{i}

$h_i$

1

$1$

0

$0$

= v_{j} p (H_{i} = 1 | v)

$\hspace{-25mm}= v_j \: p(H_i = 1 | \mathbf{v})$

— peschn
fonte

7

Existe um tutorial decente de RBMs no site deeplearning .
Esta postagem no blog ( Introdução às máquinas restritas de Boltzmann ) foi escrita em linguagem mais simples e explica muito bem o básico do RBMS:
Além disso, talvez a melhor referência seja o curso de Redes Neurais de Geoff Hinton sobre Coursea:

Não tenho certeza se você pode acessar a turma e os vídeos após o término da aula.

— sjm.majewski
fonte

2

Ainda há pessoas se inscrevendo na turma do Coursera e postando no fórum. Você ainda pode ver todas as palestras e acessar todos os questionários e tarefas de programação (entre os questionários). Essa informação provavelmente estará disponível até que o curso seja oferecido novamente. Eu recomendo a inscrição no curso apenas para visualizar ou baixar o material.

— Douglas Zare

1

A caixa laranja esquerda fornece o valor esperado do gradiente de energia em todas as configurações ocultas, uma vez que algum vetor visível é fixado nas unidades visíveis (a expectativa sobre os dados, pois ele usa uma amostra do seu conjunto de treinamento). O termo em si é o produto de (1) a probabilidade de ver uma unidade oculta específica, dado que algum vetor v está preso nas unidades visíveis e (2) o estado de uma unidade visível j.

A caixa laranja direita é a mesma que a esquerda, exceto que você está fazendo o que está na caixa laranja esquerda para todas as configurações visíveis possíveis, em vez da que está presa nas unidades visíveis (a expectativa sobre o modelo, pois nada está preso nas unidades visíveis).

— Avalon
fonte

1

O capítulo 5 do curso de aprendizado de máquina de Hugo Larochelle ( vídeo ) é a melhor introdução que eu encontrei até agora.

A derivada da função de perda não é derivada nessas palestras, mas não é difícil de fazer (posso postar uma varredura dos meus cálculos, se necessário, mas na verdade não é tão difícil). Ainda estou procurando um bom livro sobre este tópico, mas principalmente existem apenas artigos. Há uma boa visão geral dos artigos no capítulo 20 do Deep Learning Book de Bengio .

— jakab922
fonte