Distância de Mahalanobis entre duas distribuições bivariadas com covariâncias diferentes

A questão está praticamente contida no título. Qual é a distância de Mahalanobis para duas distribuições de matrizes de covariância diferentes? O que eu descobri até agora assume a mesma covariância para ambas as distribuições, ou seja, algo desse tipo:

Δ^{T} Σ^{- 1} Δ

$\Delta^T \Sigma^{-1} \Delta$

E se eu tiver dois diferentes $\Sigma$ s?

Nota: - O problema é este: existem duas distribuições bivariadas que têm as mesmas dimensões, mas que são rotacionadas e traduzidas uma em relação à outra (desculpe, eu venho de um fundo matemático puro, não de estatística). Preciso medir o grau de sobreposição / distância.

* Atualização: * O que pode ou não estar implícito no que estou perguntando é que preciso de uma distância entre os meios das duas distribuições. Eu sei onde os meios são, mas desde que as duas distribuições são rodados em relação um ao outro, eu preciso atribuir pesos diferentes para diferentes orientações e, portanto, a distância euclidiana simples entre os meios não funciona. Agora, como eu entendi, a distância de Mahalanobis não pode ser usada para medir essas informações se as distribuições tiverem formas diferentes (aparentemente, ela funciona com duas distribuições normais multivariadas de covariâncias idênticas, mas não no caso geral). Existe uma boa medida que codifique esse desejo de codificar orientações com pesos diferentes?

normal-distribution multivariate-analysis distance-functions

— Kristian D'Amato
fonte

A distância de Mahalanobis não faz sentido quando as distribuições diferem. (É como dizer "Pedro vive em uma esfera e Paulo vive em um plano euclidiano; como calculamos a distância entre eles?") Talvez você possa dar um passo atrás e nos ajudar a entender a motivação da pergunta: o que exatamente você faz quer realizar aqui? Qual é o contexto estatístico?

— whuber

Tudo bem, eu suspeitava muito. A razão pela qual pergunto é que vi a seguinte equação sendo usada para calcular uma distância de 'Mahalanobis', ou assim afirmava:

Não tenho muita certeza de que seja uma Distância Mahalanobis; Estou apenas refletindo o que foi reivindicado. Uma distância Bhattacharya funcionaria melhor em seu lugar?

Δ^{T} \(Σ_{1} Σ_{2} {\)}^{- 1} Δ

$\Delta^T $\Sigma_1 \Sigma_2$^{-1} \Delta$

— Kristian D'Amato

@ k-damato A distância Mahalanobis mede a distância entre pontos, não distribuições.

— vqv

Tudo bem, então alguém reconhece a equação acima como algo significativo? Os deltas são vetores de deslocamento.

— Kristian D'Amato

@ Kristian Mesclei suas duas contas duplicadas. Por favor, use sua conta registrada a partir de agora.

— 7282 chl

Respostas:

Existem muitas noções de distância entre distribuições de probabilidade. Qual usar depende de seus objetivos. A distância total da variação é uma maneira natural de medir a sobreposição entre distribuições. Se você estiver trabalhando com normais multivariados, a divergência Kullback-Leibler é matematicamente conveniente. Embora na verdade não seja uma distância (como não é simétrica e não obedece à desigualdade do triângulo), ela limita mais a distância total da variação - veja Desigualdade de Pinsker .

— vqv
fonte

algumas discussões recentes aqui se concentraram em modificações na divergência de KL que resultam em uma métrica adequada. Caso você esteja interessado, veja aqui e aqui .

— cardeal

Introdução Como o @vqv mencionou Variação total e Kullback Leibler, são duas distâncias interessantes. O primeiro é significativo porque pode estar diretamente relacionado aos erros de primeiro e segundo tipo no teste de hipóteses. O problema com a distância total da variação é que pode ser difícil calcular. A distância de Kullback Leibler é mais fácil de calcular e chegarei a isso mais tarde. Não é simétrico, mas pode ser simétrico (de alguma forma um pouco artificial).

$\mathcal{L}$ $P_0,P_1$ $i=0,1$ $P_i$ $\mu_i$ $C_i$

‖ L ‖_{L_{2} (P_{1 / 2})}^{2}

$\|\mathcal{L}\|^2_{L_2(P_{1/2})}$

para um bem escolhido . $P_{1/2}$

Em palavras simples :

pode haver diferentes rotações interessantes de "direções", obtidas usando sua fórmula com uma das matrizes de covariância "interpoladas" ( ou ) definidas no final deste post (o número é o que você propõe em seu comentário à sua pergunta). $\Sigma=C_{i,1/2}$ $i=1,2,3,4$ $5$ $5$
Como suas duas distribuições têm covariâncias diferentes, não é suficiente comparar os meios , você também precisa comparar as covariâncias.

Deixe-me explicar por que esse é o meu sentimento, como você pode calcular isso no caso de e como escolher . $C_1\neq C_0$ $P_{1/2}$

Caixa linear Se . $C_1=C_0=\Sigma$

σ = Δ Σ^{- 1} Δ = ‖ 2 L ‖_{L_{2} (P_{1 / 2})}^{2}

$\sigma= \Delta \Sigma^{-1} \Delta=\|2\mathcal{L}\|^2_{L_2(P_{1/2})}$

onde é o "interpolar" entre e (gaussiano com covariância e média ). Observe que, neste caso, a distância de Hellinger, a distância total de variação pode ser escrita usando . $P_{1/2}$ $P_1$ $P_0$ $\Sigma$ $(\mu_1+\mu_0)/2$ $\sigma$

Como calcular no caso geral $\mathcal{L}$ A pergunta natural que surge da sua pergunta (e meu ) é o que é um "interpolate" natural entre e quando . Aqui a palavra natural pode ser específica do usuário, mas, por exemplo, pode estar relacionada à melhor interpolação para ter um limite superior apertado com outra distância (por exemplo, distância aqui ) $P_1$ $P_0$ $C_1\neq C_0$ $L_1$

Escrevendo ( ) pode ajudar a ver onde está a tarefa de interpolação, mas:

L = ϕ (C_{i}^{- 1 / 2} (x - μ_{i})) - ϕ (C_{j}^{- 1 / 2} (x - μ_{j})) - \frac{1}{2} \log (C_{i} C_{j}^{-})

$\mathcal{L}= \phi (C^{-1/2}_i(x-\mu_i))-\phi (C^{-1/2}_j(x-\mu_j))-\frac{1}{2}\log \left ( C_iC_j^{-}\right )$

i = 0, j = 1

$i=0,j=1$

L (x) = - \frac{1}{2} ⟨ A_{i j} (x - s_{i j}), x - s_{i j} ⟩_{R^{p}} + ⟨ G_{i j}, x - s_{i j} ⟩_{R^{p}} - c_{i j}, [1]

$\mathcal{L}(x)=-\frac{1}{2}\langle A_{ij}(x-s_{ij}),x-s_{ij}\rangle_{\mathbb{R}^p}+\langle G_{ij},x-s_{ij}\rangle_{\mathbb{R}^p}-c_{ij}, \;[1]$

com

A_{i j} = C_{i}^{-} - C_{j}^{-}, G_{i j} = S_{i j} m_{i j}, S_{i j} = \frac{C_{i}^{-} + C_{j}^{-}}{2},

$A_{ij}=C_i^{-}-C_j^{-},\;\; G_{ij}=S_{ij}m_{ij},\;\; S_{ij}=\frac{C_i^{-}+C_j^{-}}{2},$

c_{i j} = \frac{1}{8} ⟨ A_{i j} m_{i j}, m_{i j} ⟩_{R^{p}} + \frac{1}{2} \log | det (C_{j}^{-} C_{i}) |

$c_{ij}=\frac{1}{8}\langle A_{ij} m_{ij},m_{ij}\rangle_{\mathbb{R}^p}+\frac{1}{2}\log|\det(C_j^{-}C_i)|$

m_{i j} = μ_{i} - μ_{j} a n d s_{i j} = \frac{μ_{i} + μ_{j}}{2}

$m_{ij}=\mu_i-\mu_j \;\; and\;\; s_{ij}=\frac{\mu_i+\mu_j}{2}$

é mais relevante para fins computacionais. Para qualquer gaussiano com média e covariância o cálculo de da Equação é um pouco técnico mas viável. Você também pode usá-lo para calcular a distância do Kulback leibler. $P_{1/2}$ $s_{01}$ $C$ $\|\mathcal{L}\|^2_{L_2(P_{1/2})}$ $1$

Que interpolação devemos escolher (ou seja, como escolher ) $P_{1/2}$ É claramente entendido na Equação que existem muitos candidatos diferentes para (interpolação) no caso "quadrático". Os dois candidatos que achei "mais naturais" (subjetivos :)) surgem da definição de uma distribuição gaussiana com média : $1$ $P_{1/2}$ $t\in [0,1]$ $P_t$ $t\mu_1+(1-t)\mu_0$

$P^1_t$ como a distribuição de (onde é extraído de ) que possui covariância ). $ξ_{t} = t ξ_{1} + (1 - t) ξ_{0}$ $\xi_t=t\xi_1+(1-t)\xi_0$ $\xi_i$ $P_i$ $i=0,1$ $C_{t,1}=(tC_1^{1/2}+(1-t)C_0^{1/2})^2$
$P^2_t$ com covariância inversa $C_{t,2}^{-1}=tC_{1}^{-1}+(1-t)C_0^{-1}$
$P^3_t$ com covariância $C_{t,3}=tC_1+(1-t)C_0$
$P^4_t$ com covariância inversa $C_{t,4}^{-1}=(tC^{-1/2}_1+(1-t)C^{-1/2}_0)^{2}$

EDIT: O que você propõe em um comentário à sua pergunta pode ser , por que não ... $C_{t,5}=C_1^{t}C_0^{1-t}$

Eu tenho minha escolha favorita, que não é a primeira :) não tenho muito tempo para discutir isso aqui. Talvez eu edite esta resposta mais tarde ...

— Robin Girard
fonte

Isso é antigo, mas para outros que estão lendo isso, a matriz de covariância reflete a rotação das distribuições gaussianas e a média reflete a tradução ou posição central da distribuição. Para avaliar a distância mahab, é simplesmente D = ((m2-m1) * inv ((C1 + C2) / 2) * (m2-m1) '). Agora, se você suspeitar que as duas distribuições bivariadas são iguais, mas suspeitar que foram rotacionadas, calcule os dois pares de vetores próprios e valores próprios para cada distribuição. Os autovetores apontam na direção da propagação dos dados bivariados ao longo dos eixos maiores e menores e os autovalores denotam o comprimento dessa propagação. Se os autovalores forem iguais, as duas distribuições são iguais, mas rotacionadas. Faça acos do produto escalar entre os autovetores para obter o ângulo de rotação.

— Caçador de tempestades
fonte