Correlação significativa em cada grupo, mas não significativa em todos?

9

Suponha-se que o teste de correlação de Pearson entre a variável e em grupos e . É possível que a correlação seja significativa em cada um de e , mas não significativa quando os dados de ambos os grupos são combinados? Nesse caso, você poderia fornecer uma explicação para isso. $x$ $y$ $A$ $B$ $(x,y)$ $A$ $B$

correlation

— qed
fonte

21

Sim, é possível e pode acontecer de todos os tipos. Um exemplo óbvio é quando a associação de A e B é escolhida de alguma maneira que reflete os valores de x e y. Outros exemplos são possíveis, por exemplo, o comentário do @ Macro sugere uma possibilidade alternativa.

Considere o exemplo abaixo, escrito em R. x e y, são suas variáveis normais padrão, mas se eu as alocar em grupos com base nos valores relativos de x e y, obterei a descrição que você nomeou. Dentro do grupo A e do grupo B, existe uma forte correlação estatisticamente significativa entre x e y, mas se você ignorar a estrutura de agrupamento, não há correlação.

insira a descrição da imagem aqui

> library(ggplot2)
> x <- rnorm(1000)
> y <- rnorm(1000)
> Group <- ifelse(x>y, "A", "B")
> cor.test(x,y)

        Pearson's product-moment correlation

data:  x and y 
t = -0.9832, df = 998, p-value = 0.3257
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 -0.09292  0.03094 
sample estimates:
     cor 
-0.03111 

> cor.test(x[Group=="A"], y[Group=="A"])

        Pearson's product-moment correlation

data:  x[Group == "A"] and y[Group == "A"] 
t = 11.93, df = 487, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.4040 0.5414 
sample estimates:
   cor 
0.4756 

> cor.test(x[Group=="B"], y[Group=="B"])

        Pearson's product-moment correlation

data:  x[Group == "B"] and y[Group == "B"] 
t = 9.974, df = 509, p-value < 2.2e-16
alternative hypothesis: true correlation is not equal to 0 
95 percent confidence interval:
 0.3292 0.4744 
sample estimates:
   cor 
0.4043 
> qplot(x,y, color=Group)

— Peter Ellis
fonte

+1. Este é um exemplo muito inteligente que não me ocorreu.

— Macro

13

Uma possibilidade é que os efeitos estejam indo em direções diferentes em cada grupo e sejam cancelados quando você os agrega . Isso também está relacionado a como, quando você deixa de fora um termo importante de interação em um modelo de regressão, os principais efeitos podem ser enganosos.

Por exemplo, suponha que no grupo , o verdadeiro relacionamento entre a resposta e o preditor seja: $\rm A$ $y_i$ $x_i$

E (y_{i} | x_{i}, G r o u p A) = 1 + x_{i}

$E(y_i|x_i, {\rm Group \ A}) = 1 + x_i$

e no grupo , $\rm B$

E (y_{i} | x_{i}, G r o u p B) = 1 - x_{i}

$E(y_i|x_i, {\rm Group \ B}) = 1 - x_i$

Suponha que a associação ao grupo seja distribuída para que Então, se você marginalizar a associação ao grupo e calcular por Lei da Expectativa Total que você recebe

P (G r o u p A) = 1 - P (G r o u p B) = p

$P({\rm Group \ A}) = 1-P( {\rm Group \ B}) = p$

E (y_{i} | x_{i})

$E(y_i|x_i)$

\begin{aligned} E (y_{i} | x_{i}) = E (E (y_{i} | x_{i}, G r o u p)) & = p (1 + x_{i}) + (1 - p) (1 - x_{i}) \\ = p + p x_{i} + 1 - x_{i} - p + p x_{i} \\ = 1 - x_{i} (2 p - 1) \end{aligned}

$\begin{align*} E(y_i | x_i) = E( E(y_i|x_i,{\rm Group}) ) &= p(1+ x_i) + (1-p)(1-x_i) \\ &= p + px_i + 1 - x_i - p + px_i \\ &= 1 - x_i(2p-1) \end{align*}$

Portanto, se , e não depende de . Portanto, há um relacionamento dentro de ambos os grupos, mas, quando você os agrega, não há relacionamento. Em outras palavras, para um indivíduo selecionado aleatoriamente na população, cuja participação no grupo não sabemos, não haverá, em média, nenhuma relação entre e . Mas, dentro de cada grupo existe. $p = 1/2$ $E(y_i | x_i) = 1$ $x_i$ $x_i$ $y_i$

Qualquer exemplo em que o valor de equilibra perfeitamente o tamanho do efeito em cada grupo também levaria a esse resultado - esse era apenas um exemplo de brinquedo para facilitar os cálculos :) $p$

Nota: Com erros normais, a significância de um coeficiente de regressão linear é equivalente à significância da correlação de Pearson, portanto, este exemplo destaca uma explicação para o que você está vendo.

— Macro
fonte