Qual é a relação entre análise de componentes independentes e análise de fatores?

Eu sou novo na Independent Component Analysis (ICA) e tenho apenas uma compreensão rudimentar do método. Parece-me que a ACI é semelhante à Análise Fatorial (FA), com uma exceção: a ACI assume que as variáveis aleatórias observadas são uma combinação linear de componentes / fatores independentes que não são gaussianos, enquanto o modelo clássico da FA assume que as variáveis aleatórias observadas são uma combinação linear de componentes / fatores gaussianos correlacionados.

O acima é preciso?

multivariate-analysis factor-analysis ica

— stats_student
fonte

Vale a pena examinar essa resposta para outra pergunta (o PCA encontra iterativamente direções de maior variação; mas como encontrar um subespaço inteiro com maior variação? )

— Piotr Migdal

insira a descrição da imagem aqui

FA, PCA e ICA são todos 'relacionados', na medida em que os três buscam vetores de base nos quais os dados são projetados, de forma que você maximize os critérios de inserção aqui. Pense nos vetores básicos como apenas encapsulando combinações lineares.

$\mathbf Z$ $2$ $N$ $N$ $\mathbf w = \begin{bmatrix}0.1 \\-4 \end{bmatrix}$ $\mathbf y$

y = w^{T} Z

$\mathbf {y = w^{\mathrm T}Z}$

$\mathbf y$ $1$ $N$

Então, quais são esses critérios?

Critérios de Segunda Ordem:

No PCA, você encontra vetores de base que 'melhor explicam' a variação de seus dados. O primeiro vetor base (ou seja, com a classificação mais alta) será aquele que melhor se ajusta a toda variação dos seus dados. O segundo também possui esse critério, mas deve ser ortogonal ao primeiro e assim por diante. (Acontece que esses vetores de base para o PCA nada mais são do que os vetores próprios da matriz de covariância de seus dados).

Na FA, há diferença entre ela e o PCA, porque o FA é generativo, enquanto o PCA não. Vi a FA como sendo descrita como 'PCA com ruído', onde o 'ruído' é chamado de 'fatores específicos'. Mesmo assim, a conclusão geral é que PCA e FA são baseados em estatísticas de segunda ordem (covariância) e nada acima.

Critérios de ordem superior:

No ICA, você está novamente encontrando vetores de base, mas desta vez deseja vetores de base que resultem, de modo que esse vetor resultante seja um dos componentes independentes dos dados originais. Você pode fazer isso maximizando o valor absoluto da curtose normalizada - uma estatística de quarta ordem. Ou seja, você projeta seus dados em algum vetor base e mede a curtose do resultado. Você muda um pouco o vetor base (geralmente através da subida gradiente) e depois mede a curtose novamente, etc. etc. Eventualmente, você se depara com um vetor base que fornece um resultado com a maior curtose possível, e este é o seu método independente. componente.

O diagrama superior acima pode ajudá-lo a visualizá-lo. Você pode ver claramente como os vetores ICA correspondem aos eixos dos dados (independentes um do outro), enquanto os vetores PCA tentam encontrar direções nas quais a variação é maximizada. (Um pouco como resultante).

Se no diagrama superior os vetores PCA parecem quase corresponder aos vetores ICA, isso é apenas coincidência. Aqui está outra instância em diferentes dados e matriz de mistura, onde eles são muito diferentes. ;-)

insira a descrição da imagem aqui

— Spacey
fonte

Parece que você está familiarizado com os dois métodos. Como pessoa competente, você pode responder se esses métodos implicam inerentemente que os vetores de base são ortogonais? Como se poderia descobrir os componentes primários ou independentes que possuem uma projeção diferente de zero, algo como duas nuvens de pontos orientadas aproximadamente em um ângulo de 45 graus entre si?

— precisa saber é o seguinte

@mbaitoff A ACI recuperará um conjunto de vetores ortogonal de base, sim. Em segundo lugar, quando você tem o que está pedindo, dois sinais que têm uma projeção diferente de zero um no outro - é exatamente isso que a ICA está tentando desfazer. É por isso que os vetores de base finais encontrados pela ACI são ortogonais entre si. Então, quando você projeta seus dados nesses dois novos vetores, eles serão ortogonais entre si.

— Spacey

@ Tarântula Fiz uma pergunta sobre o que estou falando: stats.stackexchange.com/questions/6575/… , você pode ver a ilustração i.stack.imgur.com/U6fWb.png . Não consigo entender como uma base ortogonal descreveria essas duas nuvens. É óbvio para mim que dois vetores que descrevem as principais direções de oscilação não são ortogonais.

— precisa saber é o seguinte

@mbaitoff Você pegou seus dados de dois sensores e os plotou um contra o outro, e você vê esses dois modos, para saber que eles estão pelo menos correlacionados. Então a pergunta passa a ser: como você pode projetar todos os pontos que possui, para que sejam independentes? (ou seja, de forma ortogonal, como o que a ACI encontra). É isso que a ACI encontra para você. Não entendo o que você quer dizer quando diz "Não consigo entender como uma base ortogonal descreveria essas duas nuvens". Por que não?

— Spacey

@ Tarantula Oh, agora eu vejo o que isso significa! Eu pensei que era como 'encontrar dois vetores ortogonais na trama original', enquanto na verdade significa 'encontrar dois vetores na trama original, uma projeção na qual os tornará ortogonais (independentes)'.

— mbaitoff

Não é bem assim. A análise fatorial opera com os segundos momentos e realmente espera que os dados sejam gaussianos, para que as proporções de probabilidade e coisas assim não sejam afetadas pela não normalidade. A ICA, por outro lado, é motivada pela idéia de que, quando você adiciona coisas, obtém algo normal, devido ao CLT, e realmente espera que os dados não sejam normais, para que os componentes não normais possam ser extraídos de eles. Para explorar a não normalidade, a ACI tenta maximizar o quarto momento de uma combinação linear das entradas:

max_{a : ‖ a ‖ = 1} \frac{1}{n} \sum_{i} [a^{'} (x_{i} - \bar{x})]^{4}

$\max_{{\bf a}: \| {\bf a}\| =1} \frac1n \sum_i \bigl[ {\bf a}'({\bf x}_i-\bar {\bf x})\bigr]^4$

De qualquer forma, a ACI deve ser comparada à PCA, que maximiza o segundo momento (variação) de uma combinação padronizada de entradas.

— StasK
fonte

nice e crispy resposta

— Subhash C. Davar

qual é o quarto momento aqui? PL.EXPLAIN.

— Subhash C. Davar 14/03

@ subhashc.davar O 4º momento é curtose - ou seja, o grau em que os dados eram mais pesados ou mais leves que a distribuição normal. pt.wikipedia.org/wiki/Kurtosis

— javadba