A função que você propõe tem uma singularidade sempre que a soma dos elementos é zero.
Suponha que seu vetor seja . Este vetor tem uma soma de 0, portanto, a divisão não está definida. A função não é diferenciável aqui.[−1,13,23]
Além disso, se um ou mais dos elementos do vetor forem negativos, mas a soma for diferente de zero, seu resultado não será uma probabilidade.
Suponha que seu vetor seja . Isso tem uma soma de 1, portanto, a aplicação de sua função resulta em , que não é um vetor de probabilidade porque possui elementos negativos e elementos que excedem 1.[−1,0,2][−1,0,2]
Tendo uma visão mais ampla, podemos motivar a forma específica da função softmax da perspectiva de estender a regressão logística binária para o caso de três ou mais resultados categóricos.
Fazer coisas como tomar valores absolutos ou quadrados, como sugerido nos comentários, significa que e têm a mesma probabilidade prevista; isso significa que o modelo não está identificado . Por outro lado, é monotônico e positivo para todo real ; portanto, o resultado do softmax é (1) um vetor de probabilidade e (2) o modelo logístico multinomial é identificado.−xxexp(x)x