9
Por que usar o softmax em oposição à normalização padrão?
Na camada de saída de uma rede neural, é típico usar a função softmax para aproximar uma distribuição de probabilidade: Isso é caro para calcular por causa dos expoentes. Por que não simplesmente executar uma transformação Z para que todas as saídas sejam positivas e normalizar apenas dividindo todas as …