Independência é um conceito estatístico. Duas variáveis aleatórias e Y são estatisticamente independentes se sua distribuição conjunta for o produto das distribuições marginais, ou seja,
f ( x , y ) = f ( x ) f ( y )
se cada variável tiver uma densidade f , ou mais geralmente
F ( x , y ) = F ( x ) F ( y )
onde FXY
f( x , y) = f( x ) f( y)
fF( x , y) = F( X ) F( y)
F denota a função de distribuição cumulativa de cada variável aleatória.
Correlação é um conceito estatístico mais fraco, mas relacionado. A correlação (Pearson) de duas variáveis aleatórias é a expectativa do produto das variáveis padronizadas, isto é,
As variáveis não são correlacionadas se . Pode-se mostrar que duas variáveis aleatórias independentes são necessariamente não correlacionadas, mas não vice-versa.
ρ = E [ X- E [ X]E [(X- E [ X] )2]------------√Y- E [ Y]E [(Y- E [ Y] )2]------------√] .
ρ = 0
Ortogonalidade é um conceito que se originou na geometria e foi generalizado na álgebra linear e em campos relacionados da matemática. Na álgebra linear, a ortogonalidade de dois vetores e é definida nos espaços internos do produto , ou seja, espaços vetoriais com um produto interno , como a condição que
O produto interno pode ser definido de diferentes maneiras (resultando em diferentes espaços internos do produto). Se os vetores são dados na forma de sequências de números, , uma escolha típica é o produto escalar ,vocêv⟨ U , v ⟩
⟨ U , v ⟩ = 0.
u = ( u1 1, u2, ... un)⟨ U , v ⟩ = Σni = 1vocêEuvEu .
Portanto, a ortogonalidade não é um conceito estatístico em si, e a confusão que você observa provavelmente se deve a diferentes traduções do conceito de álgebra linear em estatística:
a) Formalmente, um espaço de variáveis aleatórias pode ser considerado como um espaço vetorial. É então possível definir um produto interno nesse espaço, de diferentes maneiras. Uma escolha comum é defini-la como a covariância:
Como a correlação de duas variáveis aleatórias é zero exatamente se a covariância for zero, de acordo com esta definição, a correlação é a mesma que a ortogonalidade. (Outra possibilidade é definir o produto interno de variáveis aleatórias simplesmente como a expectativa do produto .)
⟨ X, Y⟩ = C o v ( X, Y) = E [ ( X- E [ X] ) ( Y- E [ Y] ) ] .
b) Nem todas as variáveis que consideramos nas estatísticas são variáveis aleatórias. Especialmente em regressão linear, temos variáveis independentes que não são consideradas aleatórias, mas predefinidas. Variáveis independentes são geralmente dadas como sequências de números, para os quais a ortogonalidade é naturalmente definida pelo produto escalar (veja acima). Podemos então investigar as consequências estatísticas dos modelos de regressão em que as variáveis independentes são ou não ortogonais. Nesse contexto, a ortogonalidade não possui uma definição estatística específica e ainda mais: não se aplica a variáveis aleatórias.
Além de responder ao comentário de Silverfish: a ortogonalidade não é apenas relevante em relação aos regressores originais, mas também em relação aos contrastes, porque (conjuntos de) contrastes simples (especificados por vetores de contraste) podem ser vistos como transformações da matriz de projeto, ou seja, o conjunto de variáveis independentes, em um novo conjunto de variáveis independentes. A ortogonalidade dos contrastes é definida através do produto escalar. Se os regressores originais forem mutuamente ortogonais e se aplicar contrastes ortogonais, os novos regressores também serão mutuamente ortogonais. Isso garante que o conjunto de contrastes possa ser visto como descrevendo uma decomposição de variação, por exemplo, nos principais efeitos e interações, a ideia subjacente à ANOVA .
Como, de acordo com a variante a), a não correlação e a ortogonalidade são apenas nomes diferentes para a mesma coisa, na minha opinião, é melhor evitar usar o termo nesse sentido. Se quisermos falar sobre a não correlação de variáveis aleatórias, digamos apenas isso e não complique as coisas usando outra palavra com um fundo diferente e implicações diferentes. Isso também libera o termo ortogonalidade a ser usado de acordo com a variante b), que é altamente útil, especialmente na discussão de regressão múltipla. E o contrário, devemos evitar aplicar o termo correlação a variáveis independentes, pois elas não são variáveis aleatórias.
A apresentação de Rodgers et al. Está amplamente alinhada com essa visão, especialmente porque eles entendem que a ortogonalidade é distinta da falta de correlação. No entanto, eles aplicam o termo correlação a variáveis não aleatórias (sequências de números). Isso só faz sentido estatisticamente em relação ao coeficiente de correlação da amostra . Eu ainda recomendaria evitar esse uso do termo, a menos que a sequência numérica seja considerada como uma sequência de realizações de uma variável aleatória.r
Eu espalhei links para as respostas para as duas perguntas relacionadas ao longo do texto acima, o que deve ajudá-lo a colocá-las no contexto desta resposta.