Enquanto aprendia a calcular matrizes de covariância e correlação e seus inversos em VB e T-SQL há alguns anos, aprendi que as várias entradas têm propriedades interessantes que podem torná-las úteis nos cenários certos de mineração de dados. Um exemplo óbvio é a presença de variações nas diagonais das matrizes de covariância; alguns exemplos menos óbvios que ainda não utilizei, mas que podem ser úteis em algum momento, são os fatores de inflação de variação nas matrizes de correlação inversa e correlações parciais nas matrizes de covariância inversa.
Uma coisa que ainda tenho que ver diretamente abordada na literatura, no entanto, é como interpretar os determinantes dessas matrizes. Como os determinantes são frequentemente calculados para outros tipos de matrizes, eu esperava encontrar uma grande quantidade de informações sobre eles, mas eu apareci muito pouco em pesquisas casuais nos fóruns do StackExchange e no resto da Internet. A maioria das menções que encontrei giram em torno do uso dos determinantes como uma única etapa no processo de cálculo de outros testes e algoritmos estatísticos, como Análise de Componentes Principais (PCA) e um dos testes de Hotelling; nenhum aborda diretamente como interpretar esses determinantes por conta própria. Existe uma razão prática pela qual eles não são discutidos frequentemente na literatura sobre mineração de dados? Mais importante, eles fornecem informações úteis de maneira independente e, se sim, como eu poderia interpretar os determinantes de cada um? Percebo que os determinantes são um tipo de volume assinado induzido por uma transformação linear, por isso suspeito que os determinantes desses determinantes particulares possam significar algum tipo de medida volumétrica de covariância ou correlação etc. em todo um conjunto, ou algo nesse sentido ( em oposição à covariância e correlação comuns, que estão entre dois atributos ou variáveis). Isso também levanta a questão de que tipo de volume seus inversos representariam. Não estou familiarizado o suficiente com o tópico ou a matemática matricial pesada envolvida para especular mais, mas sou capaz de codificar todos os quatro tipos de matrizes e seus determinantes. Minha pergunta não está pressionando, mas, a longo prazo, terei que decidir se vale a pena incluir regularmente essas matrizes e seus determinantes nos meus processos de mineração de dados exploratórios. É mais barato calcular apenas a covariância e a correlação de uma maneira individual e bivariada nesses idiomas específicos, mas irei além e implementarei cálculos determinantes se puder obter informações mais aprofundadas que justifiquem a despesa em termos de recursos de programação. Desde já, obrigado. irei além e implementarei cálculos determinantes, se eu puder obter idéias mais profundas que justifiquem a despesa em termos de recursos de programação. Desde já, obrigado. irei além e implementarei cálculos determinantes, se eu puder obter idéias mais profundas que justifiquem a despesa em termos de recursos de programação. Desde já, obrigado.