Distância Pros of Jeffries Matusita

De acordo com algum artigo que estou lendo, a distância de Jeffries e Matusita é comumente usada. Mas não consegui encontrar muita informação, exceto a fórmula abaixo

JMD (x, y) = $\sqrt[2]{\sum(\sqrt[2]{x_i}-\sqrt[2]{y_i})^2}$

É semelhante à distância euclidiana, exceto pela raiz quadrada

E (x, y) = $\sqrt[2]{\sum(x_i-y_i)^2}$

A distância JM é reivindicada como mais confiável que a distância euclidiana em termos de classificação. Alguém pode explicar por que essa diferença melhora a distância JM?

classification k-nearest-neighbour euclidean

— romy_ngo
fonte

Não consigo encontrar uma referência autorizada que use essa fórmula para a distância Jeffries-Matusita. As fórmulas que encontro são baseadas em matrizes de covariância para duas classes e parecem não ter relação com a dada aqui, mas parece que pode haver duas (ou mais) coisas diferentes conhecidas por esse nome. Você poderia fornecer uma referência ou (ainda melhor) um link? Aliás,

x_{i}

$x_i$ e

y_{i}

$y_i$ contam por acaso? (Em caso afirmativo, existe uma interpretação natural de sua fórmula.)

— whuber

@whuber: talvez o

são substituí-

x

$x$

y

$y$

p (x)

$p(x)$

q (x)

$q(x)$

— user603

@ user603 Sim, acho que você conseguiu. Agora as conexões com as divergências de KL e a medida Battacharyya se tornam aparentes.

— whuber

Algumas diferenças importantes, que precedem uma explicação mais longa abaixo, são as seguintes:

Fundamentalmente: a distância de Jeffries-Matusita se aplica a distribuições, e não a vetores em geral.
A fórmula de distância JM citada acima se aplica apenas a vetores que representam distribuições de probabilidade discretas (ou seja, vetores que somam 1).
Diferentemente da distância euclidiana, a distância JM pode ser generalizada para qualquer distribuição para a qual a distância Bhattacharrya possa ser formulada.
A distância JM tem, através da distância Bhattacharrya, uma interpretação probabilística.

$b_{p,q}$ $[0, \inf)$ $[0, \sqrt{2}]$

J M_{p, q} = \sqrt{2 (1 - \exp (- b (p, q))}

$JM_{p,q}=\sqrt{2(1-\exp(-b(p,q))}$

Uma vantagem prática da distância JM, de acordo com este artigo, é que esta medida "tende a suprimir altos valores de separabilidade, enfatizando excessivamente os baixos valores de separabilidade".

As medidas Bhattacharrya distância a dissimilaridade de duas distribuições de e o seguinte sentido contínuo resumo: Se o distribuições e são capturados por histogramas, representados por vetores de comprimento unitário (em que o ésimo elemento é a contagem normalizada de és de posições), isto se torna: E, consequentemente, a distância JM para os dois histogramas é: Qual, observando isso para histogramas normalizados $p$ $q$

b (p, q) = - \ln \int \sqrt{p (x) q (x)} d x

$b(p,q)=-\ln\int{\sqrt{p(x)q(x)}}dx$

p

$p$

q

$q$

i

$i$

i

$i$

N

$N$

b (p, q) = - \ln \sum_{i = 1}^{N} \sqrt{p_{i} \cdot q_{i}}

$b(p,q)=-\ln\sum_{i=1}^{N}\sqrt{p_i\cdot q_i}$

J M_{p, q} = \sqrt{2 (1 - \sum_{i = 1}^{N} \sqrt{p_{i} \cdot q_{i}})}

$JM_{p,q}=\sqrt{2\left(1-\sum_{i=1}^{N}{\sqrt{p_i\cdot q_i}}\right)}$

\sum_{i} p_{i} = 1

$\sum_{i}{p_i}=1$ , é igual à fórmula que você forneceu acima:

J M_{p, q} = \sqrt{\sum_{i = 1}^{N} {(\sqrt{p_{i}} - \sqrt{q_{i}})}^{2}} = \sqrt{\sum_{i = 1}^{N} (p_{i} - 2 \sqrt{p_{i}} \sqrt{q_{i}} + q_{i})} = \sqrt{2 (1 - \sum_{i = 1}^{N} \sqrt{p_{i} \cdot q_{i}})}

$JM_{p,q}=\sqrt{\sum_{i=1}^{N}{\left(\sqrt{p_i} - \sqrt{q_i}\right)^2}}=\sqrt{\sum_{i=1}^{N}{\left(p_i -2 \sqrt{p_i}\sqrt{q_i} + q_i \right)}}=\sqrt{2\left(1-\sum_{i=1}^{N}{\sqrt{p_i\cdot q_i}}\right)}$

— rroowwllaanndd
fonte

+1 Muito obrigado por participar e fazer esse esforço muito bem feito para esclarecer a situação.

— whuber