Eu acho que depende de como deve ser usado.
PQ
J(P,Q)=12(D(P∣∣R)+D(Q∣∣R))
where
R=12(P+Q) is the mid-point measure and
D ( ⋅ ∣ ∣⋅) is the Kullback-Leibler divergence.
Agora, eu ficaria tentado a usar a raiz quadrada da divergência Jensen-Shannon, pois é uma métrica, i.e. it satisfies all the "intuitive" properties of a distance measure.
Para mais detalhes sobre isso, consulte
Endres e Schindelin, uma nova métrica para distribuições de probabilidade , IEEE Trans. em Info. Teus. vol. 49, n. 3, jul. 2003, pp. 1858-1860.
É claro que, em certo sentido, depende do que você precisa. Se tudo o que você está usando é avaliar alguma medida emparelhada, qualquer transformação monotônica de JSD funcionaria. Se você está procurando algo mais próximo de uma "distância ao quadrado", o JSD em si é a quantidade análoga.
Incidentally, you might also be interested in this previous question and the associated answers and discussions.