Existe uma falta generalizada de rigor no uso da palavra "correlação" pela simples razão de que ela pode ter suposições e significados muito diferentes. O uso mais simples, mais solto e mais comum é o fato de existir uma vaga associação, relacionamento ou falta de independência entre um par estático de variáveis aleatórias.
Aqui, a métrica padrão mencionada é geralmente a correlação de Pearson , que é uma medida padronizada de associação linear em pares entre duas variáveis continuamente distribuídas. Um dos usos mais comuns da Pearson é denunciá-la como uma porcentagem. Definitivamente, não é uma porcentagem. A correlação de Pearson , r , varia entre -1,0 e +1,0, em que 0 significa que não há associação linear . Outros problemas não tão amplamente reconhecidos com o uso da correlação de Pearson como padrão é que ela é realmente uma medida de linearidade bastante rigorosa e não robusta, que exige variáveis com intervalos de escala como entrada (consulte o excelente artigo de Paul Embrechts sobreCorrelação e dependência no gerenciamento de riscos: propriedades e armadilhas aqui: https://people.math.ethz.ch/~embrecht/ftp/pitfalls.pdf ).
Embrechts observa que existem muitas suposições falaciosas sobre dependência que começam com suposições da estrutura subjacente e da forma geométrica desses relacionamentos:
Essas falácias surgem de uma ingênua suposição de que as propriedades de dependência do mundo elíptico também se mantêm no mundo não elíptico
Embrechts aponta cópulas como uma classe muito mais ampla de métricas de dependência usadas em finanças e gerenciamento de riscos, das quais a correlação de Pearson é apenas um tipo.
O departamento de Estatísticas da Columbia passou o ano acadêmico 2013-2014 focado no desenvolvimento de um entendimento mais profundo das estruturas de dependência: por exemplo, linear, não linear, monotônico, hierárquico, paramétrico, não paramétrico, potencialmente altamente complexo e com grandes diferenças de escala. O ano terminou com um workshop e conferência de três dias que reuniram a maioria dos principais colaboradores neste campo ( http://datascience.columbia.edu/workshop-and-conference-nonparametric-measures-dependence-apr-28-may- 2 )
Esses colaboradores incluíram os Irmãos Reshef, agora famosos pelo artigo científico de 2011 Detectando novas associações em grandes conjuntos de dados http://www.uvm.edu/~cdanfort/csc-reading-group/reshef-correlation-science-2011.pdf que foi amplamente criticado (consulte AndrewGelman.com para obter uma boa visão geral, publicada simultaneamente com o evento Columbia: http://andrewgelman.com/2014/03/14/maximal-information-coefficient ). Os Reshefs abordaram todas essas críticas em sua apresentação (disponível no site da conferência em Columbia), bem como um algoritmo MIC muito mais eficiente.
Muitos outros estatísticos importantes se apresentaram neste evento, incluindo Gabor Szekely, agora na NSF em DC. Szekely desenvolveu suas correlações de distância e distância parcial . Deep Mukhopadhay, Temple U, apresentando seu Algoritmo Estatístico Unificado - uma estrutura para algoritmos unificados de ciência de dados - com base no trabalho realizado com Eugene Franzen http://www.fox.temple.edu/mcm_people/subhadeep-mukhopadhyay/ . E muitos outros. Para mim, um dos temas mais interessantes foi a grande alavancagem e o uso do Reproducing Kernel Hilbert Space (RKHS) e o qui-quadrado. Se houve uma abordagem modal para estruturas de dependência nesta conferência, foi o RKHS.
Os manuais típicos de introdução à estatística são superficiais no tratamento da dependência, geralmente contando com apresentações do mesmo conjunto de visualizações de relações circulares ou parabólicas. Os textos mais sofisticados serão aprofundados no Quarteto de Anscombe , uma visualização de quatro conjuntos de dados diferentes, possuindo propriedades estatísticas simples e semelhantes, mas com relações extremamente diferentes: https://en.wikipedia.org/wiki/Anscombe%27s_quartet
Uma das grandes coisas deste workshop foi a multiplicidade de estruturas e relacionamentos de dependência visualizados e apresentados, indo muito além do tratamento superficial padrão. Por exemplo, os Reshefs tinham dezenas de gráficos em miniatura que representavam apenas uma amostra das possíveis não linearidades. Mukhopadhay profundo tinha visuais impressionantes de relacionamentos altamente complexos que mais pareciam uma visão de satélite do Himalaia. Os autores de estatísticas e de livros didáticos de ciência de dados precisam tomar nota.
Saindo da conferência de Columbia com o desenvolvimento e a visualização dessas estruturas de dependência altamente complexas, emparelhadas, fiquei questionando a capacidade de modelos estatísticos multivariados para capturar essas não linearidades e complexidades.