Limiar para o coeficiente de correlação para indicar significância estatística de uma correlação em uma matriz de correlação


10

Eu calculei uma matriz de correlação de um conjunto de dados que contém 455 pontos de dados, cada ponto de dados contendo 14 características. Portanto, a dimensão da matriz de correlação é 14 x 14.

Fiquei me perguntando se existe um limite para o valor do coeficiente de correlação, que aponta que existe uma correlação significativa entre duas dessas características.

Eu tenho um valor que varia de -0,2 a 0,85, e eu estava pensando que os importantes são aqueles que estão acima de 0,7.

  • Existe um valor geral para o coeficiente de correlação que deve ser considerado para o limiar ou é apenas um contexto dependente do tipo de dados que estou investigando?


@ user603 Boa captura: é praticamente a mesma pergunta. A inovação aqui é perguntar se os testes para correlação significativa podem depender do "tipo de dados" (leia-se: distribuição de dados). Vamos torcer para que as respostas se concentrem nesse aspecto, em vez de exagerar.
whuber

Respostas:


8

Testes de significância para correlações

Existem testes de significância estatística que podem ser aplicados a correlações individuais, que indicam a probabilidade de obter uma correlação maior ou maior que a correlação da amostra, assumindo que a hipótese nula é verdadeira.

O ponto principal é que o que constitui um coeficiente de correlação estatisticamente significativo depende de:

  • Tamanho da amostra : tamanhos maiores de amostra levarão a limites menores
  • alfa : geralmente definido como 0,05, alfas menores levarão a limites mais altos para significância estatística
  • teste bicaudal / bicaudal : acho que você usaria bicaudal, então isso provavelmente não importa
  • tipo de coeficiente de correlação : acho que você está usando o
  • premissas distributivas de x e y

Em circunstâncias comuns, onde alfa é 0,05, usando teste bicaudal, com correlação de Pearson, e onde normalidade é pelo menos uma aproximação adequada, o principal fator que influencia o corte é o tamanho da amostra.

Limiar de importância

Outra maneira de interpretar sua pergunta é considerar que você não está interessado em saber se uma correlação é estatisticamente significativa, mas se é praticamente importante.

Alguns pesquisadores ofereceram regras práticas para interpretar o significado dos coeficientes de correlação, mas essas regras práticas são específicas do domínio.

Teste de significância múltipla

k(k-1 1)/2k14(13)/2=9191.05=4.55

Como o @ user603 apontou, esses problemas foram bem discutidos nesta pergunta anterior .

Em geral, acho útil ao interpretar uma matriz de correlação focar na estrutura de nível superior. Isso pode ser feito de maneira informal, observando padrões gerais na matriz de correlação. Isso pode ser feito de maneira mais formal, usando técnicas como PCA e análise fatorial. Tais abordagens evitam muitos dos problemas associados ao teste de significância múltipla.


1

Uma opção seria simulação ou teste de permutação. Se você conhece a distribuição de que seus dados vêm, você pode simular a partir dessa distribuição, mas com todas as observações independentes. Se você não conhece a distribuição, pode permutar cada uma de suas variáveis ​​independentemente uma da outra e isso fornecerá a mesma distribuição marginal geral de cada variável, mas com qualquer correlação removida.

Execute um dos procedimentos acima (mantendo o tamanho da amostra e as dimensões da matriz iguais) várias vezes (cerca de 10.000) e observe a correlação absoluta máxima ou outro quantil alto que possa ser interessante. Isso fornecerá a distribuição a partir da hipótese nula de que você poderá comparar o máximo de suas correlações observadas reais com (e outros altos quantis de interesse).


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.