Na literatura de aprendizado de máquina, para representar uma distribuição de probabilidade, a função softmax é frequentemente usada. Existe uma razão para isso? Por que outra função não é usada?
Na literatura de aprendizado de máquina, para representar uma distribuição de probabilidade, a função softmax é frequentemente usada. Existe uma razão para isso? Por que outra função não é usada?
Respostas:
De uma perspectiva de otimização, ele possui algumas boas propriedades em termos de diferenciabilidade. Para muitos problemas de aprendizado de máquina, é um bom ajuste para a classificação 1-de-N.
De uma perspectiva de aprendizado profundo: também se pode argumentar que, em teoria, o uso de uma rede profunda com um classificador softmax no topo pode representar qualquer função de probabilidade de classe N no espaço de recursos, pois os MLPs possuem a propriedade Universal Approximation .
Softmax também é uma generalização da função sigmóide logística e, portanto, possui as propriedades do sigmóide, como facilidade de diferenciação e estar na faixa de 0-1. A saída de uma função sigmóide logística também está entre 0 e 1 e, portanto, naturalmente uma escolha adequada para representar probabilidade. Sua derivada também é exoressed em termos de sua própria produção. No entanto, se sua função tiver uma saída vetorial, você precisará usar a função Softmax para obter a distribuição de probabilidade sobre o vetor de saída. Existem algumas outras vantagens de usar o Softmax que a Indie AI mencionou, embora isso não tenha necessariamente nada a ver com a teoria da Aproximação Universal, uma vez que o Softmax não é uma função usada apenas para Redes Neurais.
Referências