Sem citar fontes, a Wikipedia define a entropia cruzada de distribuições discretas e Q como
Quem foi o primeiro a começar a usar essa quantidade? E quem inventou esse termo? Eu olhei dentro:
JE Shore e RW Johnson, "Derivação axiomática do princípio da entropia máxima e do princípio da entropia cruzada mínima", Information Theory, IEEE Transactions on, vol. 26, n. 1, pp. 26-37, janeiro de 1980.
Eu segui a introdução deles para
A. Wehrl, "Propriedades gerais da entropia", Reviews of Modern Physics, vol. 50, n. 2, pp. 221-260, abril de 1978.
quem nunca usa o termo.
Nem faz
S. Kullback e R. Leibler, "Sobre informação e suficiência", The Annals of Mathematics Statistics, vol. 22, n. 1, pp. 79-86, 1951.
Eu olhei
TM Cover e JA Thomas, Elementos da Teoria da Informação (Série Wiley em Telecomunicações e Processamento de Sinais). Wiley-Interscience, 2006.
e
I. Bom, "Entropia Máxima para Formulação de Hipóteses, Especialmente para Tabelas de Contingência Multidimensional", The Annals of Mathematics Statistics, vol. 34, n. 3, pp. 911-934, 1963.
mas ambos os trabalhos definem entropia cruzada como sinônimo de divergência KL.
O artigo original
CE Shannon, "Uma Teoria Matemática da Comunicação", revista técnica do sistema Bell, vol. 27, 1948.
Não menciona entropia cruzada (e tem uma definição estranha de "entropia relativa": "A proporção da entropia de uma fonte para o valor máximo que ela poderia ter enquanto ainda estivesse restrita aos mesmos símbolos").
Finalmente, procurei em alguns livros e papéis antigos da Tribus.
Alguém sabe como é chamada a equação acima e quem a inventou ou tem uma boa apresentação dela?