Esta questão é muito interessante. Não sei o motivo exato, mas acho que o seguinte motivo pode ser usado para explicar o uso da função exponencial. Este post é inspirado na mecânica estatística e no princípio da entropia máxima.
Vou explicar isso usando um exemplo com imagens, que são constituídas por imagens da classe , imagens da classe , ... e imagens da classe . Então assumimos que nossa rede neural foi capaz de aplicar uma transformação não linear em nossas imagens, de modo que podemos atribuir um 'nível de energia' a todas as classes. Assumimos que essa energia esteja em uma escala não linear que nos permita separar linearmente as imagens.Nn1C1n2C2nKCKEk
A energia média está relacionada às outras energias pelo seguinte relacionamento
E¯EkNE¯=∑k=1KnkEk.(∗)
Ao mesmo tempo, vemos que a quantidade total de imagens pode ser calculada como a seguinte soma
N=∑k=1Knk.(∗∗)
A idéia principal do princípio da entropia máxima é que o número de imagens nas classes correspondentes seja distribuído de tal forma que o número de combinações possíveis para uma dada distribuição de energia seja maximizado. Em outras palavras, o sistema provavelmente não entrará em um estado em que apenas temos a classe mas também não entrará em um estado em que tenhamos o mesmo número de imagens em cada classe. Mas por que isso é assim? Se todas as imagens estivessem em uma classe, o sistema teria entropia muito baixa. O segundo caso também seria uma situação não natural. É mais provável que tenhamos mais imagens com energia moderada e menos imagens com energia muito alta e muito baixa.n1
A entropia aumenta com o número de combinações nas quais podemos dividir as imagens nas classes de imagens , , ..., com a energia correspondente. Esse número de combinações é dado pelo coeficiente multinomialNn1n2nK
(N!n1!,n2!,…,nK!)=N!∏Kk=1nk!.
Vamos tentar maximizar esse número assumindo que temos infinitas imagens . Mas sua maximização também tem restrições de igualdade e . Esse tipo de otimização é chamado de otimização restrita. Podemos resolver esse problema analiticamente usando o método dos multiplicadores de Lagrange. Introduzimos os multiplicadores Lagrange e para as restrições de igualdade e introduzimos o Lagrange Funktion .N→∞(∗)(∗∗)βαL(n1,n2,…,nk;α,β)
L(n1,n2,…,nk;α,β)=N!∏Kk=1nk!+β[∑k=1KnkEk−NE¯]+α[N−∑k=1Knk]
Como assumimos , também podemos assumir e usar a aproximação de Stirling para o fatorialN→∞nk→∞
lnn!=nlnn−n+O(lnn).
Observe que essa aproximação (os dois primeiros termos) é apenas assintótica, não significa que essa aproximação irá convergir parapara .lnn!n→∞
O derivado parcial da função de Lagrange com respeito resultará emnk~
∂L∂nk~=−lnnk~−1−α+βEk~.
Se definirmos essa derivada parcial como zero, podemos encontrar
nk~=exp(βEk~)exp(1+α).(∗∗∗)
Se colocarmos isso de volta em , podemos obter(∗∗)
exp(1+α)=1N∑k=1Kexp(βEk).
Se colocarmos isso de volta em , obtemos algo que deve nos lembrar da função softmax(∗∗∗)
nk~=exp(βEk~)1N∑Kk=1exp(βEk).
Se definirmos como a probabilidade da classe por , obteremos algo que é realmente semelhante à função softmaxnk~/NCk~pk~
pk~=exp(βEk~)∑Kk=1exp(βEk).
Portanto, isso nos mostra que a função softmax é a função que maximiza a entropia na distribuição das imagens. A partir deste ponto, faz sentido usá-lo como a distribuição de imagens. Se , obteremos exatamente a definição da função softmax para a saída .βEk~=wTkxkth