Qual a profundidade da conexão entre a função softmax no ML e a distribuição de Boltzmann na termodinâmica?

12

A função softmax, comumente usada em redes neurais para converter números reais em probabilidades, é a mesma função da distribuição de Boltzmann, a distribuição de probabilidade sobre energias para um conjunto de partículas em equilíbrio térmico a uma dada temperatura T na termodinâmica.

Eu posso ver algumas razões heurísticas claras pelas quais isso é prático:

Não importa se os valores de entrada são negativos, o softmax gera valores positivos que somam um.
É sempre diferenciável, o que é útil para retropropagação.
Possui um parâmetro de 'temperatura' que controla a tolerância da rede em relação a valores pequenos (quando T é muito grande, todos os resultados são igualmente prováveis, quando muito pequenos, apenas o valor com a maior entrada é selecionado).

A função Boltzmann é usada apenas como softmax por razões práticas, ou existe uma conexão mais profunda com a termodinâmica / física estatística?

machine-learning neural-networks softmax

— ahura
fonte

11

Não vejo por que isso está atraindo votos próximos - é uma pergunta perfeitamente razoável.

— Matt Krause

2

+1 a @ MattKrause - os NNs certamente estão no tópico, assim como eu acho - a física estatística.

— Sean Easter

Eu posso ver como a pergunta é mais "aberta" do que a maioria das perguntas de SO, no sentido de que não estou procurando uma solução para um problema, mas um conhecimento mais geral. No entanto, eu não conseguia pensar em um lugar melhor para perguntar ou em uma maneira mais específica de perguntar.

— ahura 25/05

3

Que eu saiba, não há razão mais profunda, além do fato de que muitas das pessoas que levaram as RNAs além do estágio Perceptron eram físicas.

Além dos benefícios mencionados, essa opção em particular tem mais vantagens. Como mencionado, ele possui um único parâmetro que determina o comportamento da saída. Que por sua vez pode ser otimizado ou ajustado por si só.

Em suma, é uma função muito útil e conhecida que atinge um tipo de 'regularização', no sentido de que mesmo os maiores valores de entrada são restritos.

É claro que existem muitas outras funções possíveis que atendem aos mesmos requisitos, mas são menos conhecidas no mundo da física. E na maioria das vezes, eles são mais difíceis de usar.

— querubim
fonte

2

a função softmax também é usada na modelagem de escolha discreta, é igual ao modelo logit, se você assumir que há uma função utilitária associada a cada classe, e a função utilidade é igual à saída da rede neural + um termo de erro após o Gumbel distribuição, a probabilidade de pertencer a uma classe é igual à função softmax com a rede neural como entrada. Veja: https://eml.berkeley.edu/reprints/mcfadden/zarembka.pdf

existem alternativas para o modelo logit, como o modelo probit, em que se supõe que o termo de erro siga a distribuição normal padrão, o que é uma suposição melhor. no entanto, a probabilidade seria intratável e é computacionalmente dispendiosa para resolver, portanto, não é comumente usada em redes neurais

— John
fonte