Por que o softmax é usado para representar uma distribuição de probabilidade?


10

Na literatura de aprendizado de máquina, para representar uma distribuição de probabilidade, a função softmax é frequentemente usada. Existe uma razão para isso? Por que outra função não é usada?

Respostas:


7

De uma perspectiva de otimização, ele possui algumas boas propriedades em termos de diferenciabilidade. Para muitos problemas de aprendizado de máquina, é um bom ajuste para a classificação 1-de-N.

De uma perspectiva de aprendizado profundo: também se pode argumentar que, em teoria, o uso de uma rede profunda com um classificador softmax no topo pode representar qualquer função de probabilidade de classe N no espaço de recursos, pois os MLPs possuem a propriedade Universal Approximation .


11
Portanto, a principal razão para a popularidade do Softmax é que suas propriedades de diferenciação são úteis na configuração de aprendizado com base em gradiente. É isso aí, né?
SHASHANK GUPTA

Sim, na minha opinião de qualquer maneira. Softmax é um simples com bons derivados e é atraente para o aprendizado baseado em gradiente. Concordo com tudo o que você disse.
AI independente de

Você pode pensar em softmax como uma função de probabilidade massa / densidade da função que você otimizará. Na minha opinião, o softmax é apenas uma maneira conveniente de modelar uma função de massa / densidade de probabilidade.
Charles Chow

3

Softmax também é uma generalização da função sigmóide logística e, portanto, possui as propriedades do sigmóide, como facilidade de diferenciação e estar na faixa de 0-1. A saída de uma função sigmóide logística também está entre 0 e 1 e, portanto, naturalmente uma escolha adequada para representar probabilidade. Sua derivada também é exoressed em termos de sua própria produção. No entanto, se sua função tiver uma saída vetorial, você precisará usar a função Softmax para obter a distribuição de probabilidade sobre o vetor de saída. Existem algumas outras vantagens de usar o Softmax que a Indie AI mencionou, embora isso não tenha necessariamente nada a ver com a teoria da Aproximação Universal, uma vez que o Softmax não é uma função usada apenas para Redes Neurais.

Referências

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.