Um módulo on-line que estou estudando afirma que nunca se deve usar a correlação de Pearson com dados de proporção. Por que não?
Ou, se às vezes está bom ou sempre bem, por que?
Um módulo on-line que estou estudando afirma que nunca se deve usar a correlação de Pearson com dados de proporção. Por que não?
Ou, se às vezes está bom ou sempre bem, por que?
Respostas:
Isto é para um caso em que várias variáveis somam 1, em cada observação. Minha resposta será no nível da intuição; isso é intencional (e também não sou especialista em dados de composição).
Vamos ter variáveis de valor positivo iid (portanto, correlacionadas a zero) que depois somamos e recalculamos como proporções dessa soma. Então,
each V summing to 1 ( 100%)
Com licença? Eu não te entendi Não coloquei nenhuma restrição no V individual, sendo apenas uma fração. No entanto, a restrição inicial foi que meu exemplo assume zero correlações antes de transformar Vs em frações.
O link do vídeo do seu comentário define o contexto para o das composições, que também podem ser chamadas de misturas. Nesses casos, a soma da proporção de cada componente é igual a 1. Por exemplo, o ar é 78% de nitrogênio, 21% de oxigênio e 1% de outro (o total é 100%). Dado que a quantidade de um componente é completamente determinada pelos outros, quaisquer dois componentes terão um relacionamento multilinear perfeito. Para o exemplo do ar, temos:
Então:
Portanto, se você conhece dois componentes, o terceiro é imediatamente conhecido.
Em geral, a restrição de misturas é
Você pode calcular uma correlação entre dois componentes, mas não é informativo , pois eles sempre estão correlacionados. Você pode ler mais sobre a análise composicional em Analisando dados medidos como composição proporcional .
Você pode usar a correlação quando os dados da proporção forem de domínios diferentes. Digamos que sua resposta seja uma fração de pixels mortos em uma tela LCD. Você pode tentar correlacionar isso com, digamos, a fração de hélio usada em uma etapa de processamento químico da tela.
Given that the amount of one component is completely determined by the others, any two components will have a perfect co-linear relationship
não está claro. Você pode expandi-lo?
Essa é uma pergunta profunda e com algumas sutilezas que precisam ser declaradas. Farei o meu melhor, mas mesmo que tenha publicado sobre este tópico ( Proporcionalidade: uma alternativa válida à correlação para dados relativos ), estou sempre preparado para ser surpreendido por novas idéias sobre a análise de dados que contêm apenas informações relativas.
Como os contribuidores deste tópico apontaram, a correlação é notória (em alguns círculos) por não ter sentido quando aplicada aos dados de composição que surgem quando um conjunto de componentes é restrito a adicionar uma constante (como vemos em proporções, porcentagens, partes por milhão etc.).
Karl Pearson cunhou o termo correlação espúria com isso em mente. (Nota: O popular site de Correlação espúria de Tyler Vigen não tem tanto a ver com correlação espúria como a falácia " correlação implica causalidade ".)
A Seção 1.7 de Um Guia Conciso de Análise Composicional de Aitchison (2003) fornece uma ilustração clássica de por que a correlação é uma medida inadequada de associação para dados composicionais (por conveniência, citado nestas Informações Complementares) .
Os dados composicionais surgem não apenas quando um conjunto de componentes não negativos é feito para somar uma constante; os dados são considerados composicionais sempre que carregam apenas informações relativas.
Eu acho que o principal problema com a correlação de dados que carregam apenas informações relativas está na interpretação do resultado. Esse é um problema que podemos ilustrar com uma única variável; digamos "rosquinhas produzidas por dólar do PIB" em todas as nações do mundo. Se o valor de uma nação é maior que o de outra, é porque
...quem pode dizer?
Obviamente, como as pessoas comentam sobre esse tópico, pode-se calcular correlações desses tipos de variáveis como uma variável descritiva. Mas o que essas correlações significam?
Eu tive a mesma pergunta. Achei esta referência no biorxiv útil:
Lovell D., V. Pawlowsky-Glahn, J. Egozcue, S. Marguerat, J. Bähler (2014),
"Proporcionalidade: uma alternativa válida à correlação para dados relativos"
Nas informações de suporte deste artigo (Lovell, David, et al.; Doi: dx.doi.org/10.1101/008417), os autores mencionam que correlações entre abundâncias relativas não fornecem nenhuma informação em alguns casos. Eles dão um exemplo de abundância relativa de duas expressões de mRNA. Na Figura S2, as abundâncias relativas dos dois mRNAs diferentes estão perfeitamente correlacionadas negativamente, embora a correlação desses dois mRNAs em valores absolutos não seja negativamente relacionada (pontos verdes e roxos).
Talvez isso possa ajudá-lo.