Respostas:
Para os rótulos , a probabilidade de alguns dados binários no modelo de Bernoulli com parâmetros é
enquanto a probabilidade do log é
E a entropia cruzada binária é
Claramente, .
Sabemos que o valor ideal é o mesmo para ambos, porque podemos observar que, para qualquer que não seja ideal, temos , que vale para qualquer . (Lembre-se, queremos minimizar a entropia cruzada , para que o ideal tenha o mínimo .)
Da mesma forma, sabemos que o valor ideal é o mesmo para e porque é uma função crescente monotônica para , para que possamos escrever . (Lembre-se, queremos maximizar a probabilidade , para que o ideal tenha o mais .)
Algumas fontes omitem o da entropia cruzada. Claramente, isso altera apenas o valor de , mas não a localização dos ótimos; portanto, de uma perspectiva de otimização, a distinção não é importante. O sinal negativo, no entanto, é obviamente importante, pois é a diferença entre maximizar e minimizar!