A entropia cruzada é idêntica à divergência KL mais a entropia da distribuição do alvo. KL é igual a zero quando as duas distribuições são iguais, o que me parece mais intuitivo do que a entropia da distribuição de destino, que é a entropia cruzada de uma correspondência.
Não estou dizendo que há mais informações em uma das outras, exceto que uma visão humana pode achar um zero mais intuitivo do que positivo. Obviamente, geralmente se usa um método avaliativo para realmente ver quão bem ocorre a classificação. Mas a escolha da entropia cruzada sobre a KL é histórica?