Os determinantes das matrizes de covariância e correlação e / ou seus invasores têm interpretações úteis?


9

Enquanto aprendia a calcular matrizes de covariância e correlação e seus inversos em VB e T-SQL há alguns anos, aprendi que as várias entradas têm propriedades interessantes que podem torná-las úteis nos cenários certos de mineração de dados. Um exemplo óbvio é a presença de variações nas diagonais das matrizes de covariância; alguns exemplos menos óbvios que ainda não utilizei, mas que podem ser úteis em algum momento, são os fatores de inflação de variação nas matrizes de correlação inversa e correlações parciais nas matrizes de covariância inversa.

Uma coisa que ainda tenho que ver diretamente abordada na literatura, no entanto, é como interpretar os determinantes dessas matrizes. Como os determinantes são frequentemente calculados para outros tipos de matrizes, eu esperava encontrar uma grande quantidade de informações sobre eles, mas eu apareci muito pouco em pesquisas casuais nos fóruns do StackExchange e no resto da Internet. A maioria das menções que encontrei giram em torno do uso dos determinantes como uma única etapa no processo de cálculo de outros testes e algoritmos estatísticos, como Análise de Componentes Principais (PCA) e um dos testes de Hotelling; nenhum aborda diretamente como interpretar esses determinantes por conta própria. Existe uma razão prática pela qual eles não são discutidos frequentemente na literatura sobre mineração de dados? Mais importante, eles fornecem informações úteis de maneira independente e, se sim, como eu poderia interpretar os determinantes de cada um? Percebo que os determinantes são um tipo de volume assinado induzido por uma transformação linear, por isso suspeito que os determinantes desses determinantes particulares possam significar algum tipo de medida volumétrica de covariância ou correlação etc. em todo um conjunto, ou algo nesse sentido ( em oposição à covariância e correlação comuns, que estão entre dois atributos ou variáveis). Isso também levanta a questão de que tipo de volume seus inversos representariam. Não estou familiarizado o suficiente com o tópico ou a matemática matricial pesada envolvida para especular mais, mas sou capaz de codificar todos os quatro tipos de matrizes e seus determinantes. Minha pergunta não está pressionando, mas, a longo prazo, terei que decidir se vale a pena incluir regularmente essas matrizes e seus determinantes nos meus processos de mineração de dados exploratórios. É mais barato calcular apenas a covariância e a correlação de uma maneira individual e bivariada nesses idiomas específicos, mas irei além e implementarei cálculos determinantes se puder obter informações mais aprofundadas que justifiquem a despesa em termos de recursos de programação. Desde já, obrigado. irei além e implementarei cálculos determinantes, se eu puder obter idéias mais profundas que justifiquem a despesa em termos de recursos de programação. Desde já, obrigado. irei além e implementarei cálculos determinantes, se eu puder obter idéias mais profundas que justifiquem a despesa em termos de recursos de programação. Desde já, obrigado.


o que você entende por covariância ou correlação comum?
Subhash C. Davar

Respostas:


10

Consegui juntar alguns princípios gerais, casos de uso e propriedades dessas matrizes a partir de um conjunto desultório de fontes; alguns deles abordam esses tópicos diretamente, sendo os mais mencionados apenas de passagem. Como os determinantes representam volumes assinados, eu esperava que aqueles pertencentes a esses quatro tipos de matrizes se traduzissem em medidas de associação multidimensionais de algum tipo; isso acabou sendo verdade até certo ponto, mas alguns deles exibem propriedades interessantes:

Matrizes de covariância:

• No caso de uma distribuição gaussiana, o determinante mede indiretamente a entropia diferencial, que pode ser interpretada como dispersão dos pontos de dados pelo volume da matriz. Veja a resposta da tmp em O que a matriz determinante da covariância fornece ? para detalhes.

• A resposta de Alexander Vigodner no mesmo tópico diz que também possui a propriedade da positividade.

• O determinante da matriz de covariância pode ser interpretado como variação generalizada. Consulte o Manual de Estatísticas do NIST, página 6.5.3.2. Determinante e estrutura própria .

Matrizes de covariância inversa:

• É equivalente ao inverso da variância generalizada que o determinante da matriz de covariância representa; maximizar o determinante da matriz de covariância inversa pode aparentemente ser usado como um substituto para o cálculo do determinante da matriz de informações de Fisher, que pode ser usado na otimização do projeto do experimento. Veja a resposta de kjetil b halvorsen ao tópico CV Determinant of Fisher Information

Matrizes de correlação:

• Estes são muito mais interessantes que os determinantes da matriz de covariância, pois o volume de correlação diminui à medida que o determinante se aproxima de 1 e aumenta à medida que o último se aproxima de 0. Esse é o oposto dos coeficientes de correlação comuns, nos quais números mais altos indicam maior correlação positiva. "O determinante da matriz de correlação será igual a 1,0 somente se todas as correlações forem iguais a 0, caso contrário, o determinante será menor que 1. Lembre-se de que o determinante está relacionado ao volume do espaço ocupado pelo enxame de pontos de dados representado por pontuações padrão em Quando as medidas não são correlacionadas, esse espaço é uma esfera com um volume de 1. Quando as medidas são correlacionadas, o espaço ocupado se torna um elipsóide cujo volume é menor que 1. " Vejoeste conjunto de notas do curso de Tulane e esta página do Quora .

• Outra citação para esse comportamento inesperado: "O determinante de uma matriz de correlação se torna zero ou quase zero quando algumas das variáveis ​​estão perfeitamente correlacionadas ou altamente correlacionadas entre si". Veja a pergunta de Rakesh Pandey Como lidar com o problema do determinante quase zero na confiabilidade da computação usando o SPSS?

• Uma terceira referência: "Ter um det (R) muito pequeno significa apenas que você tem algumas variáveis ​​que são quase linearmente dependentes". A resposta de Carlos Massera Filho neste tópico CrossValidated.

• Os determinantes também seguem uma escala de 0 a 1, que diferem da escala de -1 a 1 que os coeficientes de correlação seguem. Eles também não têm o sinal de que um determinante comum pode exibir ao expressar a orientação de um volume. O fato de o determinante de correlação ainda representar ou não alguma noção de direcionalidade não foi abordado em nenhuma literatura que encontrei.

Matrizes de Correlação Inversa:

• Uma pesquisa no Google pelos termos combinados "matriz de correlação inversa" e "determinante" resultou em apenas 50 ocorrências, portanto, aparentemente, elas não são comumente aplicadas ao raciocínio estatístico.

• Aparentemente, a minimização do determinante de correlação inversa pode ser útil em algumas situações, uma vez que existe uma patente para cancelamento de eco usando filtros adaptativos, contém um procedimento de regularização projetado para fazer exatamente isso. Veja a pág. 5 neste documento de patente .

P. 5 da Robust Technology with Analysis of Interference in Signal Processing (disponível nas visualizações do Google Livros) por Telman Aliev parece sugerir que "a estipulação pobre" de uma matriz de correlação está relacionada à instabilidade no determinante das matrizes de correlação inversa. Em outras palavras, mudanças brutas em seu determinante em proporção a pequenas mudanças em seus elementos constituintes estão relacionadas à quantidade de informações capturadas pelas matrizes de correlação.

Pode haver outras propriedades e casos de uso desses determinantes não listados aqui; Vou publicá-las apenas por uma questão de exaustividade e fornecer uma resposta para a pergunta que fiz, caso outra pessoa tenha usos práticos para essas interpretações (como eu tenho com os determinantes de correlação).


Vou esperar mais um pouco antes de aceitar minha própria resposta, na esperança de que alguém mais qualificado apareça e forneça uma resposta melhor.
SQLServerSteve

3
Boa resposta! Eu acrescentaria que os deteminantes podem ser usados ​​em "antecedentes da diversidade", ou seja, para encorajar os modelos de variáveis ​​latentes a não desmoronarem em ótimos locais locais de merda, onde várias variáveis ​​latentes são idênticas. Por exemplo: papers.nips.cc/paper/…
eric_kernfeld

Obrigado :) Talvez eu deva adicionar seu comentário à resposta (com crédito, é claro) depois de ler esse artigo? Eu não gosto de priores Bayesianos, então pode levar algum tempo para digerir.
SQLServerSteve

Aceitei minha própria resposta, mas não a aceitarei se uma melhor for postada. Eu ainda gostaria de mais informações sobre essas interpretações.
SQLServerSteve
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.