Como interpretar uma covariância inversa ou matriz de precisão?

64

Fiquei me perguntando se alguém poderia me indicar algumas referências que discutem a interpretação dos elementos da matriz de covariância inversa, também conhecida como matriz de concentração ou matriz de precisão.

Eu tenho acesso às Dependências Multivariadas de Cox e Wermuth , mas o que estou procurando é uma interpretação de cada elemento na matriz inversa. A Wikipedia afirma : "Os elementos da matriz de precisão têm uma interpretação em termos de correlações parciais e variações parciais", o que me leva a esta página. Existe uma interpretação sem o uso de regressão linear? Ou seja, em termos de covariâncias ou geometria?

interpretation covariance-matrix

— Vinh Nguyen
fonte

4

você leu a página inteira da Wikipedia? Há uma seção sobre geometria e independência condicional para a distribuição normal. Você pode encontrar mais neste livro .

— NRH 14/05

@NRH A geometria é explicada na página de correlação parcial, que ainda não tenho certeza de como ela se relaciona com a matriz de concentração. Esse livro de modelos gráficos tem uma explicação dos elementos da matriz de concentração? Obrigado!

— Vinh Nguyen

veja a resposta abaixo.

— NRH 16/05

2

Veja também Por que a inversão de uma matriz de covariância produz correlações parciais entre variáveis aleatórias?

— Ameba diz Reinstate Monica

34

Existem basicamente duas coisas a serem ditas. A primeira é que, se você observar a densidade da distribuição normal multivariada (com média 0 aqui), ela é proporcional a que é o inverso da matriz de covariância, também chamada precisão. Essa matriz é positiva definida e define via um produto interno em . A geometria resultante, que dá significado específico ao conceito de ortogonalidade e define uma norma relacionada à distribuição normal, é importante e para entender, por exemplo, o conteúdo geométrico do LDA necessário para visualizar as coisas à luz da geometria dada por

\exp (- \frac{1}{2} x^{T} P x)

$\exp\left(-\frac{1}{2}x^T P x\right)$

P = Σ^{- 1}

$P = \Sigma^{-1}$

(x, y) \mapsto x^{T} P y

$(x,y) \mapsto x^T P y$

R^{p}

$\mathbb{R}^p$

P

$P$ .

A outra coisa a ser dita é que as correlações parciais podem ser lidas diretamente de , veja aqui . A mesma página da Wikipedia indica que as correlações parciais e, portanto, as entradas de , têm uma interpretação geométrica em termos de cosseno em ângulo. O que é, talvez, mais importante no contexto de correlações parciais é que a correlação parcial entre e é 0 se e somente se a entrada em for zero. Para a distribuição normal, as variáveis e são então condicionalmente independentes $P$ $P$ $X_i$ $X_j$ $i,j$ $P$ $X_i$ $X_j$ dadas todas as outras variáveis. É disso que trata o livro de Steffens, a que me referi no comentário acima. Independência condicional e modelos gráficos. Ele tem um tratamento bastante completo da distribuição normal, mas pode não ser tão fácil de seguir.

— NRH
fonte

11

Desculpe, estou um pouco confuso com a fórmula da Wikipedia para correlação parcial; Eu já vi várias implementações usando (com um sinal de menos). Tem certeza de que a fórmula da Wikipedia está correta?

- \frac{p_{i j}}{\sqrt{p_{i i} p_{j j}}}

${\bf\color{red} -} \frac{p_{ij}}{ \sqrt{p_{ii} p_{jj}}}$

— 21730 Sheljohn

11

@ Sh3ljohn, você está perfeitamente certo. Há um sinal de menos faltando na fórmula da Wikipedia.

— NRH 02/07

A primeira resposta não está realmente falando mais sobre as informações de Fisher do que sobre a matriz de precisão? Quero dizer, eles coincidem no caso gaussiano realmente especial / agradável, mas geralmente não coincidem. Obviamente, os dois conceitos estão relacionados (limite inferior de Cramer-Rao, distribuição assintótica do MLE etc.), mas não parece útil confundi-los (especificamente, vim a essa pergunta procurando sua pergunta sobre como distinguir informações de Fisher e as matriz de correlação inversa).

— precisa saber é o seguinte

24

Eu gosto deste modelo gráfico probabilístico para ilustrar o ponto de NRH de que a correlação parcial é zero se e somente se X for condicionalmente independente de Y, dado Z, com a suposição de que todas as variáveis envolvidas são gaussianas multivariadas (a propriedade não se aplica no caso geral) :

insira a descrição da imagem aqui

( são variáveis aleatórias gaussianas; ignore T e k) $y_i$

Fonte: Palestra de David MacKay sobre Gaussian Process Basics , 25 minutos.

— Franck Dernoncourt
fonte

12

A interpretação baseada em correlações parciais é provavelmente a mais útil estatisticamente, uma vez que se aplica a todas as distribuições multivariadas. No caso especial da distribuição normal multivariada, a correlação parcial zero corresponde à independência condicional.

Você pode derivar essa interpretação usando o complemento Schur para obter uma fórmula para as entradas da matriz de concentração em termos das entradas da matriz de covariância. Veja http://en.wikipedia.org/wiki/Schur_complement#Applications_to_probability_theory_and_statistics

— vqv
fonte

11

A matriz de covariância pode representar a relação entre todas as variáveis enquanto a covariância inversa, relaciona a relação do elemento com seus vizinhos (como a wikipedia disse na relação parcial / par).

Tomo emprestado o exemplo a seguir daqui em 24:10, imagine que 5 massas estejam conectadas e vogando com 6 molas, a matriz de covariância conteria correlação de todas as massas; se uma der certo, outras também darão certo. mas a matriz de covariância inversa sustenta a relação daquelas massas que são conectadas pela mesma mola (vizinhos) e contém muitos zeros e seu positivo não é necessário.

— user4581
fonte

11

Onde isso é explicado no vídeo? É uma hora. Obrigado!

— Vinh Nguyen

você está certo, seu sobre 24:10, eu acho que isso é o melhor exemplo para entender a natureza da matriz cov e seu inverso

— user4581

5

Bar-Shalom e Fortmann (1988) mencionam a covariância inversa no contexto da filtragem de Kalman da seguinte forma:

... [T] aqui está uma recursão pela covariância inversa (ou matriz de informações )

$\mathbf{P}^{-1}(k+1|k+1) = \mathbf{P}^{-1}(k+1|k) + \mathbf{H}'(k+1) \mathbf{R}^{-1}(k+1)\mathbf{H}(k+1)$

... De fato, um conjunto completo de equações de previsão e atualização, conhecido como filtro de informações [8, 29, 142], pode ser desenvolvido para a covariância inversa e um vetor de estado transformado . $\mathbf{P}^{-1}\hat{\mathbf{x}}$

O livro está indexado no Google .

— estrela Brilhante
fonte