Medida apropriada para encontrar a menor matriz de covariância

No livro que estou lendo, eles usam definição positiva (definição semi-positiva) para comparar duas matrizes de covariância. A idéia é que, se é pd então é menor do que . Mas estou lutando para conseguir a intuição desse relacionamento? $A-B$ $B$ $A$

Há um tópico semelhante aqui:

/math/239166/what-is-the-intuition-for-using-definiteness-to-compare-matrices

Qual é a intuição para usar a definição definitiva para comparar matrizes?

Embora as respostas sejam boas, elas realmente não abordam a intuição.

Aqui está um exemplo que eu acho confuso:

[\begin{matrix} 16 & 12 \\ 12 & 9 \end{matrix}] - [\begin{matrix} 1 & 2 \\ 2 & 4 \end{matrix}]

$\begin{equation} \begin{bmatrix} 16 & 12 \\ 12 & 9 \end{bmatrix} - \begin{bmatrix} 1 & 2 \\ 2 & 4 \end{bmatrix} \end{equation}$

Agora aqui o determinante da diferença é -25, de modo que a relação não é pd ou mesmo psd e, portanto, a primeira matriz não é maior que a primeira?

Eu simplesmente quero comparar duas matrizes de covariância 3 * 3 para ver qual é a menor? Parece-me mais intuitivo usar algo como a norma euclidiana para compará-los? No entanto, isso significa que a primeira matriz acima é maior que o segundo matix. Além disso, só vejo o critério pd / psd usado para comparar matrizes de covariância.

Alguém pode explicar por que o pd / psd é melhor do que usar outra medida, como a norma euclidiana?

Também publiquei essa pergunta no fórum de matemática (não sabia o que era melhor), espero que isso não viole nenhuma regra.

/math/628135/comparing-two-covariance-matrices

— Baz
fonte

Você pode ler isso onde se considera a intuição por trás da (semi) definição positiva. Quando você compara 2 variações ae b, se a-bfor positivo, então diríamos que após a remoção variabilidade bfora do aresta alguma variabilidade "real" deixada no a. Da mesma forma, é um caso de variâncias multivariadas (= matrizes de covariância) Ae B. Se A-Bé definido positivamente, isso significa que a A-Bconfiguração de vetores é "real" no espaço euclidiano: em outras palavras, ao remover Bde A, o último ainda é uma variabilidade viável.

— precisa saber é

O que você quer dizer com "menor" de duas matrizes de covariância?

— whuber

Oi whuber, as matrizes de covariância referem-se a estimadores concorrentes, desejo selecionar o estimador que tem a menor variação. (Será que isso esclarecer as coisas?)

— Baz

Baz: Então, por que não comparar diretamente as variações dos estimadores?

— Glen_b -Reinstala Monica

Olá, o método está definido, a expressão para o que eles chamam de variação (que inclui covariâncias) é dada. No entanto, mesmo que eu comparasse apenas as variações, isso ainda envolveria a comparação de valores vetoriais que terão problemas semelhantes aos da matriz?

— Baz

Respostas:

A ordem das matrizes a que você se refere é conhecida como ordem de Loewner e é uma ordem parcial muito usada no estudo de matrizes definidas positivas. Aqui está um tratamento de livro da geometria no coletor de matrizes positivas-definidas (posdef) .

Primeiro tentarei abordar sua pergunta sobre intuições . Uma matriz (simétrica) $A$ é posdef se $c^T A c\ge 0$ para todos os $c \in \mathbb{R}^n$ . Se $X$ é uma variável aleatória (rv) com matriz de covariância $A$ , então $c^T X$ é (proporcional a) sua projeção em algum subespaço de uma dimensão e $\mathbb{Var}(c^T X) = c^T A c$ . Aplicando isso a $A-B$ em sua Q, em primeiro lugar: é uma matriz de covariância, segunda: uma variável aleatória com matriz COVAR $B$ projectos em todas as direções com variação menor do que um rv com covariância matriz $A$ . Isso deixa intuitivamente claro que essa ordem pode ser apenas parcial; existem muitos rvs que se projetam em direções diferentes com variações muito diferentes. Sua proposta de alguma norma euclidiana não tem uma interpretação estatística tão natural.

Seu "exemplo confuso" é confuso porque ambas as matrizes têm zero determinante. Portanto, para cada um, há uma direção (o vetor próprio com valor próprio zero) em que eles sempre se projetam para zero . Mas essa direção é diferente para as duas matrizes, portanto elas não podem ser comparadas.

A ordem Loewner é definida de forma que $A \preceq B$ , $B$ seja mais positivo definido que $A$ , se $B-A$ for posdef. Esta é uma ordem parcial, para algumas matrizes posdef nem $B-A$ nem $A-B$ são posdef. Um exemplo é:

A = (\begin{matrix} 1 & 0.5 \\ 0.5 & 1 \end{matrix}), B = (\begin{matrix} 0.5 & 0 \\ 0 & 1.5 \end{matrix})

$A=\begin{pmatrix} 1 & 0.5 \\ 0.5 & 1 \end{pmatrix}, \quad B= \begin{pmatrix} 0.5 & 0\\ 0 & 1.5 \end{pmatrix}$ Uma maneira de mostrar isso graficamente é desenhar um gráfico com duas elipses, mas centralizado na origem, associado de maneira padrão às matrizes (então a distância radial em cada direção é proporcional à variação de projetando nessa direção):

Nesse caso, as duas elipses são congruentes, mas giradas de maneira diferente (na verdade, o ângulo é de 45 graus). Isso corresponde ao fato de que as matrizes $A$ e $B$ têm os mesmos valores próprios, mas os vetores próprios são rotacionados.

Como essa resposta depende muito das propriedades das elipses, a seguir, qual é a intuição por trás das distribuições gaussianas condicionais? explicar elipses geometricamente, pode ser útil.

Agora vou explicar como as elipses associadas às matrizes são definidas. Uma matriz posdef $A$ define uma forma quadrática $Q_A(c) = c^T A c$ . Isso pode ser plotado como uma função, o gráfico será quadrático. Se $A \preceq B$ , em seguida, o gráfico de $Q_B$ será sempre acima do gráfico de $Q_A$ . Se recortarmos os gráficos com um plano horizontal na altura 1, os cortes descreverão elipses (que na verdade são uma maneira de definir elipses). As elipses deste corte são dadas pelas equações

Q_{A} (c) = 1, Q_{B} (c) = 1

$Q_A(c)=1, \quad Q_B(c)=1$ e vemos que

A ⪯ B

$A \preceq B$ corresponde à elipse de B (agora com interior) está contida na elipse de A. Se não houver ordem, não haverá contenção. Observamos que a ordem de inclusão é oposta à ordem parcial de Loewner, se não gostarmos de que podemos desenhar elipses dos inversos. Isso porque

A ⪯ B

$A \preceq B$ é equivalente a

B^{- 1} ⪯ A^{- 1}

$B^{-1} \preceq A^{-1}$ . Mas vou ficar com as elipses, conforme definido aqui.

Uma elipse pode ser descrita com os semiaxos e seu comprimento. Discutiremos apenas $2\times 2$ -matrizes aqui, pois são eles que podemos desenhar ... Portanto, precisamos dos dois eixos principais e seu comprimento. Isso pode ser encontrado, conforme explicado aqui, com uma composição independente da matriz posdef. Então os eixos principais são dados pelos vetores próprios, e seu comprimento $a,b$ pode ser calculado a partir dos valores próprios $\lambda_1, \lambda_2$ por

uma = \sqrt{1 1 / λ_{1 1}}, b = \sqrt{1 1 / λ_{2}} .

$a = \sqrt{1/\lambda_1}, \quad b=\sqrt{1/\lambda_2}.$ Também podemos ver que a área da elipse representando

A

$A$ é

π a b = π \sqrt{1 / λ_{1}} \sqrt{1 / λ_{2}} = \frac{π}{\sqrt{det A}}

$\pi a b= \pi \sqrt{1/\lambda_1}\sqrt{1/\lambda_2} = \frac{\pi}{\sqrt{\det A}}$ .

Vou dar um exemplo final em que as matrizes podem ser ordenadas:

As duas matrizes neste caso foram:

UMA = (\begin{matrix} 2 / 3 & 1 1 / 5 \\ 1 1 / 5 & 3 / 4 \end{matrix}), B = (\begin{matrix} 1 1 & 1 1 / 7 \\ 1 1 / 7 & 1 1 \end{matrix})

$A =\begin{pmatrix}2/3 & 1/5 \\ 1/5 & 3/4\end{pmatrix}, \quad B=\begin{pmatrix} 1& 1/7 \\ 1/7& 1 \end{pmatrix}$

— kjetil b halvorsen
fonte

O @kjetil b halvorsen oferece uma boa discussão sobre a intuição geométrica por trás da semi-definição positiva como uma ordem parcial. Vou dar uma opinião mais suja da mesma intuição. Um que procede de que tipos de cálculos você gostaria de fazer com suas matrizes de variação.

$x$ $y$ $V(x)$ $V(y)$ $V(x)=5$ $V(y)=15$ $x$ $y$

$x$ $y$

\begin{aligned} V (x) = [\begin{array}{cc} 1 1 & 0,5 \\ 0,5 & 1 1 \end{array}] V (y) = [\begin{array}{cc} 8 & 3 \\ 3 & 6 \end{array}] \end{aligned}

$\begin{align} V(x) = \left[ \begin{array}{c c} 1 & 0.5 \\ 0.5 & 1 \end{array} \right] \qquad V(y) = \left[ \begin{array}{c c} 8 & 3 \\ 3 & 6 \end{array} \right] \end{align}$

x_{1}

$x_1$

y_{1}

$y_1$

V (x_{1}) = 1 < 8 = V (y_{1})

$V(x_1)=1<8=V(y_1)$

V (x_{2}) = 1 < 6 = V (y_{2})

$V(x_2)=1<6=V(y_2)$

x

$x$

\leq

$\le$

y

$y$

x

$x$

\leq

$\le$

y

$y$

V (x) \leq V (y)

$V(x) \le V(y)$

V (x)

$V(x)$

\leq

$\le$

V (y)

$V(y)$

\begin{aligned} V (x) = [\begin{array}{cc} V (x_{1 1}) & 0 0 \\ 0 0 & V (x_{2}) \end{array}] V (y) = [\begin{array}{cc} V (y_{1 1}) & 0 0 \\ 0 0 & V (y_{2}) \end{array}] \end{aligned}

$\begin{align} V(x) = \left[ \begin{array}{c c} V(x_1) & 0 \\ 0 & V(x_2) \end{array} \right] \qquad V(y) = \left[ \begin{array}{c c} V(y_1) & 0 \\ 0 & V(y_2) \end{array} \right] \end{align}$

V (y) - V (x)

$V(y)-V(x)$

V (x) \leq V (y)

$V(x) \le V(y)$

V (x_{1}) \leq V (y_{1})

$V(x_1) \le V(y_1)$

V (x_{2}) \leq V (y_{2})

$V(x_2) \le V(y_2)$

\begin{aligned} V (x) = [\begin{array}{cc} 1 1 & 0,1 \\ 0,1 & 1 1 \end{array}] V (y) = [\begin{array}{cc} 1 1 & 0 0 \\ 0 0 & 1 1 \end{array}] \end{aligned}

$\begin{align} V(x) = \left[ \begin{array}{c c} 1 & 0.1 \\ 0.1 & 1 \end{array} \right] \qquad V(y) = \left[ \begin{array}{c c} 1 & 0 \\ 0 & 1 \end{array} \right] \end{align}$

V (x) \leq V (y)

$V(x) \le V(y)$

V (x_{k}) \leq V (y_{k})

$V(x_k) \le V(y_k)$

3 x_{1} + 2 x_{2}

$3x_1 + 2x_2$

3 y_{1} + 2 y_{2}

$3y_1 + 2y_2$

V (3 x_{1} + 2 x_{2}) > V (3 y_{1} + 2 y_{2})

$V(3x_1 + 2x_2) \gt V(3y_1 + 2y_2)$

V (x) \leq V (y)

$V(x) \le V(y)$

$x$ $y$ $V(x) \le V(y)$ $a$ $V(ax) \le V(ay)$

$\le$ $V(x) \le V(y)$ $V(a_1x_1 + a_2x_2) \le V(a_1y_1 + a_2y_2)$ $a_1$ $a_2$ $a_1=1,a_2=0$ $V(x_1) \le V(y_1)$ $a_1=0,a_2=1$ $V(x_2) \le V(y_2)$

$V(x) \le V(y)$ $V(a'x) \le V(a'y)$ $a$

\begin{aligned} V ({uma}^{'} y) - V ({uma}^{'} x) = {uma}^{'} V (x) uma - {uma}^{'} V (y) uma = {uma}^{'} (V (x) - V (y)) uma \end{aligned}

$\begin{align} V(a'y) - V(a'x) = a'V(x)a - a'V(y)a = a'\left(V(x) - V(y) \right)a \end{align}$

\leq

$\le$

V (x) \leq V (y)

$V(x) \le V(y)$

V (a^{'} x) \leq V (a^{'} y)

$V(a'x) \le V(a'y)$

a

$a$

(V (y) - V (x))

$\left( V(y)-V(x) \right)$

$V$ $W$ $W-V$

— Conta
fonte