Em problemas de classificação, maximizar a probabilidade é a maneira mais comum de treinar uma rede neural (modelos supervisionados e não supervisionados).
Na prática, geralmente minimizamos a probabilidade logarítmica negativa (MLE equivalente). A única restrição para usar a probabilidade de log negativa é ter uma camada de saída que possa ser interpretada como uma distribuição de probabilidade. Uma camada de saída softmax é comumente usada para isso. Observe que na comunidade de redes neurais, a probabilidade de log negativa é algumas vezes referida como entropia cruzada. É claro que termos de regularização podem ser adicionados (e às vezes podem ser interpretados como distribuições anteriores sobre os parâmetros, nesse caso, estamos procurando o máximo a posteriori ( MAP )).