Antes de tudo, percebi que, se preciso realizar previsões binárias, tenho que criar pelo menos duas classes executando uma codificação one-hot. Isso está correto? No entanto, a entropia cruzada binária é apenas para previsões com apenas uma classe? Se eu usasse uma perda de entropia cruzada categórica, que normalmente é encontrada na maioria das bibliotecas (como o TensorFlow), haveria uma diferença significativa?
De fato, quais são as diferenças exatas entre uma entropia cruzada categórica e binária? Eu nunca vi uma implementação de entropia cruzada binária no TensorFlow, então pensei que talvez a categórica funcione tão bem.