Por que o ρ de Pearson é apenas uma medida exaustiva de associação se a distribuição articular é multivariada normal?


Respostas:


15

Talvez seja melhor entender "medida de associação" em uma distribuição multivariada para consistir em todas as propriedades que permanecem as mesmas quando os valores são arbitrariamente redimensionados e atualizados. Fazer isso pode alterar os meios e as variações para quaisquer valores teoricamente permitidos (as variações devem ser positivas; os meios podem ser qualquer coisa).

Os coeficientes de correlação ("Pearson's ") determinam completamente uma distribuição normal multivariada. Uma maneira de ver isso é examinar qualquer definição de fórmula, como fórmulas para a função densidade ou função característica. Elas envolvem apenas meios, variações e covariâncias - mas covariâncias e correlações podem ser deduzidas uma da outra quando você conhece as variações.ρ

A família multivariada Normal não é a única família de distribuições que desfruta dessa propriedade. Por exemplo, qualquer distribuição t multivariada (para graus de liberdade superiores a ) tem uma matriz de correlação bem definida e é completamente determinada pelos seus dois primeiros momentos.2


Estou certo de que, de acordo com a definição que você está aplicando aqui, a covariância não seria uma medida de associação? Como tenderia a expandir à medida que as variações se expandissem.
user1205901 - Reintegrar Monica

2
Está correto. Embora a covariância esteja obviamente relacionada a uma medida de associação, ela não é uma, porque é afetada por outros fatores também.
whuber

19

As variáveis ​​podem ser associadas de maneiras que a correlação de Pearson é completamente cega.

ρxyz

insira a descrição da imagem aqui

Aqui está outro exemplo de variáveis ​​associadas, mas não correlacionadas:

insira a descrição da imagem aqui

(O argumento subjacente está sendo feito sobre distribuições, mesmo que eu esteja ilustrando isso com dados aqui.)

Mesmo quando as variáveis ​​são correlacionadas, a correlação de Pearson em geral não informa como - você pode obter formas de associação muito diferentes que têm a mesma correlação de Pearson (mas quando as variáveis ​​são multivariadas normais, assim que eu lhe disser a correlação, você pode dizer exatamente como as variáveis ​​padronizadas estão relacionadas).

Portanto, a correlação de Pearson não "esgota" as maneiras pelas quais as variáveis ​​são associadas - elas podem ser associadas, mas não correlacionadas, ou podem ser correlacionadas, mas associadas de maneiras bastante distintas. [A variedade de maneiras pelas quais a associação não totalmente capturada pela correlação pode ocorrer é bastante grande - mas, se alguma delas acontecer, você não poderá ter um normal multivariado. Note, no entanto, que nada na minha discussão implica que isso (que saberρ define a possível associação) caracteriza o normal multivariado, mesmo que a citação do título pareça sugeri-lo.]

(Uma maneira comum de abordar a associação multivariada é através de cópulas. Existem inúmeras perguntas no site relacionadas a cópulas; você pode achar algumas delas úteis)


Existem dados do mundo real com essas distribuições?

@what Existem dados do mundo real extraídos de distribuições normais? Duvido, então (como meus marginais eram normais nos diagramas) isso tornaria a resposta "não" imediatamente. O objetivo dos exemplos era mostrar claramente por que a associação entre variáveis ​​aleatórias não é tão simples quanto às vezes assumidas (com que frequência as pessoas calculam uma correlação de Pearson para medir a associação? Com ​​bastante frequência), e também salientar que ter margens normais e ser multivariada normal são diferentes. Exemplos muito reais em que a correlação de Pearson não captura o que está acontecendo certamente ocorrem.
Glen_b -Reinstala Monica

Não vamos falar sobre distribuições por um momento. Quando calculamos correlações a partir de uma nuvem de pontos, assumimos uma correlação ideal "geometricamente" subjacente (linear, hiperbólica, logarítmica, seno etc.) da qual os pontos da nuvem se desviam devido a algum "erro". Agora, todas as formas ideais que eu vi abstraídas de dados reais eram contínuas (sem interrupções) e sempre aumentavam ao longo de pelo menos um eixo (que não é, por exemplo, circular). Meu conhecimento de dados é limitado, então eu queria saber se havia de fato dados do mundo real cuja correlação é não contínua ou circular.

Por exemplo, pode haver dados que, se eu plotar, parecerão duas nuvens de pontos. Se eu calcular cegamente correlações com esses dados, posso encontrar uma, enquanto (ou pelo menos me disseram) a trama indica claramente que estou perdendo alguma variável confusa desconhecida que, se eu a explicasse, resolveria a relação espúria na minha dados. Se meu professor examinasse seus exemplos em forma de "x" ou "y", ele me diria que eu tenho dois subconjuntos distintos de dados misturados.
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.