Modelos gráficos e máquinas Boltzmann estão relacionados matematicamente?

Embora eu tenha feito alguma programação com máquinas de Boltzmann em uma aula de física, não estou familiarizado com a caracterização teórica deles. Por outro lado, conheço um pouco da teoria dos modelos gráficos (sobre os primeiros capítulos do livro de Lauritzen, Graphical Models ).

Pergunta: Existe alguma relação significativa entre os modelos gráficos e a máquina de Boltzmann? A máquina Boltzmann é um tipo de modelo gráfico?

Obviamente, a máquina Boltzmann é um tipo de rede neural. Ouvi dizer que algumas redes neurais estão matematicamente relacionadas a modelos gráficos e que outras não.

Perguntas relacionadas no CrossValidated que não respondem à minha pergunta:
Isso é semelhante a uma pergunta anterior que foi feita antes: Qual é a relação entre modelos hierárquicos, redes neurais, modelos gráficos, redes bayesianas? mas é mais específico.

Além disso, a resposta aceita para essa pergunta não esclarece minha confusão - mesmo que os nós na representação gráfica padrão de uma rede neural não representem variáveis aleatórias, isso não significa necessariamente que essa representação não existe. Especificamente, estou pensando em como os nós na representação gráfica típica das cadeias de Markov representam o conjunto de estados possíveis, e não as variáveis aleatórias , mas também é possível criar um gráfico mostrando as relações de dependência condicional entre os $X_i$ $X_i$ , que mostra que toda cadeia de Markov é de fato um campo aleatório de Markov. A resposta também diz que as redes neurais (presumivelmente incluindo as máquinas de Boltzmann) são "discriminatórias", mas não entram em mais detalhes para explicar o que essa afirmação significa, nem a pergunta óbvia de acompanhamento "os modelos gráficos não são discriminatórios?" endereçado. Da mesma forma, a resposta aceita está no site de Kevin Murphy (na verdade, li algumas de suas teses de doutorado ao aprender sobre redes bayesianas), mas este site discute apenas redes bayesianas e não menciona redes neurais - portanto, deixa de esclarecer como elas são diferentes.

Essa outra pergunta provavelmente é mais parecida com a minha: modelando matematicamente redes neurais como modelos gráficos No entanto, nenhuma das respostas foi aceita e da mesma forma apenas fornece referências, mas não as explica (por exemplo, esta resposta ). Embora um dia eu seja capaz de entender as referências, agora estou em um nível básico de conhecimento e gostaria muito de receber uma resposta o mais simplificada possível. Além disso, o curso de Toronto vinculado na resposta superior ( http://www.cs.toronto.edu/~tijmen/csc321/lecture_notes.shtml ) aborda isso, mas não com muitos detalhes. Além disso, as notas da palestra que pode responder à minha pergunta não estão disponíveis ao público.

25 de março Aula 13b: Redes de Crenças 7:43. Para este slide, lembre-se das máquinas Boltzmann. Lá também temos unidades ocultas e visíveis, e é tudo probabilístico. BMs e SBNs têm mais em comum do que diferenças. 9:16. Atualmente, "Modelos Gráficos" são às vezes considerados como uma categoria especial de redes neurais, mas na história descrita aqui, eles eram considerados tipos muito diferentes de sistemas.

— Chill2Macht
fonte

Respostas:

Máquinas Boltzmann vs. Máquinas Boltzmann restritas

AFAIK, as máquinas Boltzmann, é um tipo de modelo gráfico, e o modelo relacionado às redes neurais são as máquinas restritas Boltzmann (RBM).

A diferença entre máquinas Boltzmann e máquinas restritas Boltzmann, do livro Machine Learning A Probabilistic Perspective

RBMs vs. redes neurais

Para RBMs (ref: Um Guia Prático de Treinamento de Máquinas Boltzmann Restritas de Geoffrey Hinton ) onde e correspondem às unidades visíveis e ocultas na figura acima, e é a função Sigmoide.

p (v, h) = \frac{1}{Z} \exp (\sum a_{i} v_{i} + \sum b_{j} h_{j} + \sum v_{i} h_{j} w_{i j})

$p(\mathbf{v},\mathbf{h})=\frac{1}{Z}\exp(\sum a_iv_i+\sum b_jh_j + \sum v_ih_jw_{ij})$

p (h_{j} = 1 | v) = σ (b_{j} + \sum v_{i} w_{i j})

$p(h_j=1|\mathbf{v})=\sigma(b_j+\sum v_iw_{ij})$

p (v_{i} = 1 | h) = σ (a_{i} + \sum h_{j} w_{i j})

$p(v_i=1|\mathbf{h})=\sigma(a_i+\sum h_jw_{ij})$

v

$\mathbf{v}$

h

$\mathbf{h}$

σ ()

$\sigma()$

As probabilidades condicionais são calculadas na mesma forma de camadas de rede, para que os pesos treinados dos RBMs possam ser usados diretamente como pesos das redes neurais ou como ponto de partida do treinamento.

Eu acho que o RBM em si é mais um modelo gráfico do que um tipo de rede neural, uma vez que não é direcionado, possui independências condicionais bem definidas e usa seus próprios algoritmos de treinamento (por exemplo, divergência contrastiva).

— dontloo
fonte

Bom, essa é uma ótima resposta, com uma ótima referência. Também me faz querer ler o livro do professor Murphy ainda mais cedo. Agradeço o tempo que você levou para fazer essa resposta completa.

— Chill2Macht

@William feliz por estar de ajuda :)

— dontloo

Boa resposta. Você poderia documentar a notação um pouco mais? (Eu li recentemente algo relacionado, acho, portanto reconheço nós visíveis, nós ocultos, função logística, mas outros podem não.) Também pode ser bom incluir a citação completa , para se proteger contra links -podridão.

v =

$v=$

h =

$h=$

σ () =

$\sigma()=$

— GeoMatt22 15/09/16

@ GeoMatt22 obrigado, atualizei a resposta.

— dontloo

Isso apenas confirma / verifica a resposta aceita, que as máquinas Boltzmann são realmente um caso especial de modelo gráfico. Especificamente, esta questão é abordada nas páginas 127-127 de Koller, Friedman, Modelos Gráficos Probabilísticos: Princípios e Técnicas , na Caixa 4.C.

Um dos primeiros tipos de modelos de rede de Markov é o modelo de Ising, que surgiu pela primeira vez na física estatística como um modelo para a energia de um sistema físico envolvendo um sistema de átomos interagindo ... Relacionado ao modelo de Ising está a distribuição da máquina Boltzmann. a energia resultante pode ser reformulada em termos de um modelo de Ising (Exercício 4.12).

Como o modelo de Ising, originalmente um conceito da literatura da mecânica estatística, pode ser formulado como um modelo gráfico, é fornecido em muitos detalhes no Exemplo 3.1., Seção 3.3., Nas páginas 41-43 de Wainwright, Jordan, Modelos Gráficos, Exponencial Famílias e inferência variacional .

Aparentemente, o modelo de Ising foi fundamental para a fundação do campo dos modelos gráficos no final dos anos 70 e início dos anos 80, pelo menos com base no que Steffen Lauritzen diz no prefácio e na introdução de seu livro, Modelos Gráficos . Essa interpretação também parece apoiada na Seção 4.8 do livro acima citado por Koller e Friedman.

O desenvolvimento de máquinas Boltzmann a partir do modelo Ising pode ter sido uma ocorrência independente, com base na mesma seção de Koller e Friedman, que afirma que "as máquinas Boltzmann foram propostas pela primeira vez por Hinton e Sejnowski (1983)", o que parece ter ocorreu após o trabalho inicial no desenvolvimento de campos aleatórios de Markov como generalizações do modelo de Ising, embora o trabalho por trás desse artigo pudesse ter começado muito antes de 1983.

Minha confusão sobre esse relacionamento, quando escrevi essa pergunta há mais de um ano, surgiu do fato de eu ter encontrado pela primeira vez tanto o modelo de Ising quanto o modelo de máquina de Boltzmann para neurônios, na literatura de física. Como Koller e Friedman mencionam, a literatura dentro da comunidade de física estatística sobre o modelo de Ising e noções relacionadas é realmente vasta.

Na minha experiência, também é bastante insular, no sentido de que, enquanto estatísticos e cientistas da computação estudando modelos gráficos mencionam como o campo está relacionado à mecânica estatística, nenhuma referência que eu já encontrei na literatura de física estatística menciona as conexões com outros campos ou tenta explorá-lo. (Daí me fazer duvidar e ficar confuso com a noção de que poderia haver essas conexões com outros campos.)

Para um exemplo da perspectiva do físico, tanto no modelo de Ising quanto na máquina de Boltzmann, consulte o livro do curso em que o aprendi pela primeira vez. Também menciona métodos médios de campo, se bem me lembro, algo discutido também no artigo de Jordan e Wainwright citado acima.

— Chill2Macht
fonte

a conexão pode ser muito fina e baseada principalmente no uso da função de partição que está na base da mecânica estatística e em que é tomado o exponencial da soma dos produtos internos. A função softmax também usa esse formulário, de modo que a nomenaclatura mantém o legado dos termos e muitos físicos trabalham em ML (por exemplo, Christopher Bishop).

— Vass