Sei que este é um post tardio, mas sinto que ainda haveria algum valor em fornecer alguma justificativa para aqueles que por acaso desembarcarem aqui.
Você não está totalmente errado. É arbitrário até certo ponto, mas talvez arbitrário seja a palavra errada. É mais como uma escolha de design. Deixe-me explicar.
Acontece que o Softmax é na verdade a generalização da função Sigmoid, que é uma unidade de saída Bernoulli (saída 0 ou 1):
[1+exp(−z)]−1
Mas de onde vem a função Sigmoide, você pode perguntar.
Bem, acontece que muitas distribuições de probabilidade diferentes, incluindo a distribuição de Bernoulli, Poisson, Gaussiana, etc, seguem algo chamado Modelo Linear Generalizado (GLM). Ou seja, eles podem ser expressos em termos de:
P(y;η)=b(y)exp[ηTT(y)−a(η)]
Não abordarei quais são todos esses parâmetros, mas você certamente pode pesquisar isso.
Observe o seguinte exemplo de como é uma distribuição de Bernoulli na família GLM:
P(y=1)=ϕP(y=0)=1−ϕP(y)=ϕy(1−ϕ)1−y=exp(ylog(ϕ)+(1−y)log(1−ϕ))=exp(ylog(ϕ)+log(1−ϕ)−ylog(1−ϕ))=exp(ylog(ϕ1−ϕ)+log(1−ϕ))
Você pode ver que, neste caso,
b(y)=1T(y)=yη=log(ϕ1−ϕ)a(η)=−log(1−ϕ)
Observe o que acontece quando resolvemos em termos de :ϕη
η=log(ϕ1−ϕ)eη=ϕ1−ϕe−η=1−ϕϕ=1ϕ−1e−η+1=1ϕϕ=[exp(−η)+1]−1
Então, para obter , tomamos o sigmóide de . A opção de design aparece quando assumimos que , onde são seus pesos são seus dados, sendo que ambos assumimos ser . Ao fazer essa suposição, podemos ajustar para aproximar-se de .ϕ=P(y=1)ηη=wTxwx∈Rnwϕ
Se você passasse pelo mesmo processo para uma distribuição Multinoulli, acabaria derivando a função softmax.