Independência linear versus independência estatística (PCA e ICA)


8

Estou lendo este artigo interessante sobre a aplicação da ICA aos dados de expressão gênica.

Os autores escrevem:

[T] aqui não é necessário que os componentes do PCA sejam estatisticamente independentes.

Isso é verdade, mas os PCs são ortogonais, não são?

Estou um pouco confuso sobre qual é a relação entre inedpendência estatística e ortogonalidade ou independência linear.

Vale ressaltar que, embora a ACI também forneça uma decomposição linear da matriz de dados, o requisito de independência estatística implica que a matriz de covariância dos dados seja correlacionada de forma não linear, em contraste com o PCA, onde a correlação é realizada linearmente.

Eu não entendo isso. Como a falta de linearidade decorre da independência estatística?

Pergunta: como a independência estatística de componentes na ACI se relaciona com a independência linear de componentes na APC?

Respostas:


10

É provável que isso seja uma duplicata de algumas perguntas mais antigas, mas responderei brevemente.

Para uma explicação não técnica, acho bastante útil essa figura no artigo da Wikipedia sobre Correlação e dependência :

insira a descrição da imagem aqui

Os números acima de cada gráfico de dispersão mostram coeficientes de correlação entre X e Y. Veja a última linha: em cada gráfico de dispersão, a correlação é zero, ou seja, X e Y são "linearmente independentes". No entanto, eles obviamente não são estatisticamente independentes: se você souber o valor de X, poderá restringir os possíveis valores de Y. Se X e Y fossem independentes, isso significaria que conhecer X não diz nada sobre Y.

O objetivo da ICA é tentar encontrar componentes independentes. No PCA, você obtém apenas componentes não correlacionados ("ortogonais"); a correlação entre eles é zero, mas eles podem muito bem ser estatisticamente dependentes.


2
Ah! (palmface) OK, de alguma forma eu comecei a dissecar a ACI e acabei não vendo o óbvio. Obrigado! Eu uso o mesmo exemplo, ao explicar o mesmo problema para os outros ...
janeiro

1
Nós tendemos a "equiparar" "ortogonalidade" com "correlação zero", mas isso é verdade apenas quando uma das variáveis ​​envolvidas tem média zero.
Alecos Papadopoulos

2
@Alecos, isso está correto (+1), mas análises como PCA ou ICA quase sempre são feitas em variáveis ​​centralizadas, portanto essa distinção não é relevante.
Ameba

1
Na verdade, esse é o problema em geral. Na econometria, a ortogonalidade é discutida principalmente no que diz respeito ao "termo de erro" de uma regressão que tem média zero, e também aqui também tende a ser equiparada a "covariância zero". Portanto, as pessoas correm o risco de esquecer que, em geral, elas não são iguais e, portanto, podem acabar assumindo-o erroneamente em uma situação em que as variáveis ​​não estão centradas em sua média.
Alecos Papadopoulos

Encontrei uma frase: "Embora não correlacionados, os principais componentes podem ser altamente dependentes estatisticamente". Após a sua resposta, é razoável entendê-lo da seguinte maneira: sabendo o que é um PC, podemos dizer algo sobre um PC diferente?
11182
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.