Significado do coeficiente de correlação médio

Isenção de responsabilidade: se você acha que essa pergunta é muito semelhante a outra, fico feliz em ser mesclada. No entanto, não encontrei uma resposta satisfatória em nenhum outro lugar (e ainda não tenho a "reputação" de comentar ou votar), então achei que seria melhor fazer uma nova pergunta.

Minha pergunta é essa. Para cada um dos 12 indivíduos humanos, calculei um coeficiente de correlação (rho de Spearman) entre 6 níveis de uma variável independente X e as observações correspondentes de uma variável dependente Y. (Nota: os níveis de X não são iguais entre os sujeitos.) hipótese nula é que, na população em geral, essa correlação é igual a zero. Eu testei essa hipótese de duas maneiras:

Usando um teste t de uma amostra sobre os coeficientes de correlação obtidos dos meus 12 indivíduos.
Centralizando meus níveis de X e observações de Y de modo que, para cada participante, média (X) = 0 e média (Y) = 0 e calculando uma correlação sobre os dados agregados (72 níveis de X e 72 observações de Y) .

Agora, lendo sobre como trabalhar com coeficientes de correlação (aqui e em outros lugares), comecei a duvidar se a primeira abordagem é válida. Particularmente, vi a seguinte equação aparecer em vários lugares, apresentada (aparentemente) como um teste t para coeficientes de correlação médios:

t = \frac{r}{S E_{r}} = \frac{\sqrt{n - 2}}{\sqrt{1 - r^{2}}}

$t = \frac{r}{SE_{r}} = \frac{\sqrt{n-2}}{\sqrt{1-r^{2}}}$

onde seria o coeficiente de correlação médio (e vamos assumir que obtivemos isso usando a transformação de Fisher nos coeficientes por sujeito primeiro) e o número de observações. Intuitivamente, isso me parece errado, pois não inclui nenhuma medida da variabilidade entre os sujeitos. Em outras palavras, se eu tivesse 3 coeficientes de correlação, obteria a mesma estatística t se fossem [0,1, 0,5, 0,9] ou [0,45 0,5 0,55] ou qualquer faixa de valores com a mesma média (e ) $r$ $n$ $n=3$

Suspeito, portanto, que a equação acima não se aplique de fato ao testar a significância de uma média de coeficientes de correlação, mas ao testar a significância de um único coeficiente de correlação com base em observações de 2 variáveis. $n$

Alguém aqui pode confirmar esta intuição ou explicar por que está errada? Além disso, se essa fórmula não se aplicar ao meu caso, alguém conhece a / a abordagem correta? Ou talvez meu próprio teste número 2 já seja válido? Qualquer ajuda é muito apreciada (incluindo indicadores de respostas anteriores que eu possa ter esquecido ou mal interpretado).

correlation statistical-significance fisher-transform

— Ruben van Bergen
fonte

de Pearson é insensível às transformações de centralização e dimensionamento, por isso acho que a centralização é irrelevante para a sua pergunta. Por exemplo, cor (

) = cor (

r

$r$

X, Y

$X,Y$

X, Y - \bar{Y}

$X,Y-\bar{Y}$

X, Y + 1000

$X,Y+1000$

X, Y \times 1000

$X,Y\times 1000$

— Alexis26 /

Eu concordo com você. Por isso, interpretei centralizar como "centralizar cada variável separadamente antes de juntá-las".

— Federico Tedeschi

@FedericoTedeschi Não é "centralizar cada variável separadamente antes de juntá-las" o que

significa?

Y - \bar{Y}

$Y-\bar{Y}$

— Alexis

@ Alexis Eu respondi a você na parte inferior da minha resposta (levaria muito tempo para escrevê-lo em um comentário, e eu também teria que corrigi-lo várias vezes devido ao problema WYSINWYG).

— Federico Tedeschi

Respostas:

Uma abordagem melhor para analisar esses dados é usar um modelo misto (também conhecido como modelo de efeitos mistos, modelo hierárquico) com subjectum efeito aleatório (interceptação aleatória ou interceptação aleatória + inclinação). Para resumir uma resposta diferente da minha:

Essa é essencialmente uma regressão que modela um único relacionamento geral, permitindo que esse relacionamento seja diferente entre os grupos (os seres humanos). Essa abordagem se beneficia do pool parcial e usa seus dados com mais eficiência.

— mkt - Restabelecer Monica
fonte

-1

Eu suponho que as variáveis ( e ) são iguais para todos os indivíduos (na verdade, não tenho certeza de entender o que você quer dizer com os níveis não iguais entre os sujeitos: espero que você seja referindo-se à independência entre os intervalos das variáveis, e não sobre quais variáveis são medidas para cada indivíduo). Sim, a fórmula que você mostrou se aplica ao coeficiente de correlação entre duas variáveis. $12$ $6$ $X$ $6$ $Y$

No seu ponto 2, você fala sobre normalização: Eu acho que isso faria sentido se você fez isso para cada um dos variáveis separadamente. No entanto, mesmo assim, o problema com essa abordagem é que ela não controla a dependência dentro do indivíduo. $6*2$

Acredito que sua abordagem 1 também não é válida, porque seria um teste entre variáveis com distribuição com apenas graus de liberdade; portanto, não acho que você possa aplicar o Teorema do Limite Central neste caso. $6$ $t$ $10$

Talvez, com números maiores, é possível usar uma abordagem efeito aleatório, permitindo uma inclinação ao acaso e, simultaneamente, tanto para testar um coeficiente médio nulo (de em ) e não existência de um coeficiente de forma aleatória. Acredito, no entanto, 6 variáveis e 12 observações não são suficientes para fazê-lo. $X_i$ $Y_i$

Eu sugiro que você o veja como um teste em 6 valores (tornando-se 12 se você também considerar valores abaixo da diagonal) da matriz de correlação entre as variáveis (tanto o quanto o ), ou seja, aquelas na diagonal do 2º (e equivalente ao terceiro) quadrante. Assim, eu faria um teste de razão de verossimilhança entre o modelo restrito e o irrestrito. $12$ $X$ $Y$

@Alexis Meu entendimento é que centralizando , , substituindo-os por $X_1, \dots, X_6$ $Y_1, \dots, Y_6$ faria sentido (acho que também faria sentido para dividi-los pelo seu's). Dessa forma, as variáveise(criadas considerandocomo se fossem ocorrências de uma variável única e a mesma para ) teriam umamédia de. Pelo contrário, se construirmos duas variáveisprimeiro (criadas considerando o $X_1^*=X_1-\bar{X_1}, \dots, X_6^*=X_6-\bar{X_6}, Y_1^*=Y_1-\bar{Y_1}, \dots, Y_6^*=Y_6-\bar{Y_6}$ $SE$ $X^*$ $Y^*$ $X_i^*, 1 \leq i \leq 6$ $Y_i^*$ $0$ $X, Y$ como se fossem ocorrências de uma variável única, e o mesmo para ), é claro que subtrair a média (e também dividir pelo SE de e ) não mudaria as coisas. $X_i, 1 \leq i \leq 6$ $Y_i$ $X$ $Y$

EDIT 01/01/18

Deixe- indicam a variável e ( ) do indivíduo. Então, suponha que tenhamos: $i$ $j$ $1\leq j\leq 12$

; $X_{1j}=Y_{1j}=10, \forall j$

; $X_{2j}=Y_{2j}=8, \forall j$

; $X_{3j}=Y_{3j}=6, \forall j$

; $X_{4j}=Y_{4j}=4, \forall j$

; $X_{5j}=Y_{5j}=2, \forall j$

. $X_{6j}=-Y_{6j}=j, \forall j$

A correlação neste caso deve ser . $0.5428$

Se centralizarmos cada variável, dado que, para , tanto como não têm variação, temos: (isto é, para $1 \leq i \leq 5$ $X_i$ $Y_i$ . Como para, obtemos a valores de $X_{ij}^*=Y_{ij}^*=0$ $i=6$ $X_{6j}^*=j-6.5, Y_{j6}^*=(13-j)-6.5=6.5-j$ $X$ 's: e exatamente o oposto dos ) . Desde e , obtemos: $-5.5, -4.5, -3.5, -2.5, -1.5, -0.5, 0.5, 1.5, 2.5, 3.5, 4.5, 5.5$ $Y$ $0=-0$ $j-6.5=-(6.5-j)$ , implicando uma correlação de. $X_{ij}^*=-Y_{ij}^* \forall i,j \rightarrow X^*=-Y^*$ $-1$

— Federico Tedeschi
fonte

Eu concordo com você, se seguirmos o segundo procedimento. Por isso, acredito que Ruben van Bergen quis dizer o que descrevi no 1º procedimento. Neste caso, temos que:

, mas

c o r (X_{i}, Y_{i}) = c o r (X_{i}^{*}, Y_{i}^{*}), \forall i

$cor(X_i,Y_i)=cor(X_i^*,Y_i^*), \forall i$

c o r (X, Y) = c o r (X^{*}, Y^{*})

$cor(X,Y)=cor(X^*,Y^*)$ geralmente não é verdade. Estou editando minha postagem para mostrar um contra-exemplo.

— Federico Tedeschi

Os valores que dão uma correlação de

são:

0.5428

$0.5428$

;

X = 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12

$X=10,10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,1,2,3,4,5,6,7,8,9,10,11,12$

. Não importa se a correlação é realmente

Y = 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 10, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 8, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 6, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 12, 11, 10, 9, 8, 7, 6, 5, 4, 3, 2, 1

$Y=10,10,10,10,10,10,10,10,10,10,10,8,8,8,8,8,8,8,8,8,8,8,8,6,6,6,6,6,6,6,6,6,6,6,6,4,4,4,4,4,4,4,4,4,4,4,4,2,2,2,2,2,2,2,2,2,2,2,2,12,11,10,9,8,7,6,5,4,3,2,1$

0.5428

$0.5428$ , uma vez que é claramente diferente de

- 1

$-1$

— Federico Tedeschi

A correlação entre

. O fato de você dizer isso

X^{*} = 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, - 5.5, - 4.5, - 3.5, - 2.5, - 1.5, - 0.5, 0.5, 1.5, 2.5, 3.5, 4.5, 5.5

$X^*=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,-5.5,-4.5,-3.5,-2.5,-1.5,-0.5,0.5,1.5,2.5,3.5,4.5,5.5$

X^{*} = 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 5.5, 4.5, 3.5, 2.5, 1.5, 0.5, - 0.5, - 1.5, - 2.5, - 3.5, - 4.5, - 5.5

$X^*=0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,5.5,4.5,3.5,2.5,1.5,0.5,-0.5,-1.5,-2.5,-3.5,-4.5,-5.5$

- 1

$-1$

X = 1, \dots, 12

$X=1,\dots, 12$

leva a

é verdade, mas isso só meios que

Y = 12, \dots, 1

$Y=12, \dots, 1$

c o r (X, Y) = c o r (X^{*}, Y^{*}) = - 1

$cor(X,Y)=cor(X^*,Y^*)=-1$

, que é algo que eu já escrevi.

c o r (X_{i}, Y_{i}) = c o r (X_{i}^{*}, Y_{i}^{*})

$cor(X_i,Y_i)=cor(X^*_i,Y^*_i)$

— Federico Tedeschi

Claro

c o r (X; Y) = c o r (X - \bar{X}; Y - \bar{Y})

$cor(X;Y)=cor(X-\bar{X};Y-\bar{Y})$

X - \bar{X}

$X - \bar{X}$

X_{1} - \bar{X}, X_{2} - \bar{X}, \dots, X_{n} - \bar{X}

$X_{1} - \bar{X}, X_{2}-\bar{X},\dots, X_{n}-\bar{X}$