Criando um único índice a partir de vários componentes principais ou fatores retidos do PCA / FA

Estou usando a Análise de componentes principais (PCA) para criar um índice necessário para minha pesquisa. Minha pergunta é como devo criar um único índice usando os principais componentes retidos calculados por meio do PCA.

Por exemplo, decidi reter 3 componentes principais depois de usar o PCA e calculei as pontuações para esses 3 componentes principais. Quais são as maneiras apropriadas de criar, para cada entrevistado, um único índice dessas três pontuações?

É relevante adicionar as 3 pontuações computadas para ter um valor composto?
Ou para calcular a média das três pontuações para ter esse valor?
Ou devo manter apenas o primeiro componente principal (o mais forte) e usar sua pontuação como índice?

Como alternativa, pode-se usar a Análise Fatorial (FA), mas a mesma pergunta permanece: como criar um único índice com base em várias pontuações fatoriais?

— user179313
fonte

PCs não são correlacionados por definição. Portanto, como variáveis, elas não duplicam as informações uma da outra. Isso significa que não há razão para criar um único valor (variável composta) a partir deles. Ou, às vezes, multiplicá-los pode se tornar interessante, talvez - mas não somar ou calcular a média.

— ttnphns

Concordo com o @ttnphns: suas duas primeiras opções não fazem muito sentido, e todo o esforço de "combinar" três PCs em um índice parece equivocado. Tome o 1º PC como seu índice ou use alguma abordagem diferente.

— Ameba diz Reinstate Monica

@ttnphns sem correlação, não independente. Pode haver informações redundantes repetidas nos PCs, mas não linearmente.

— conjecturas

@amoeba Obrigado pelo lembrete. Criei versões para a tag e seu trecho em stats.stackexchange.com/tags/valuation/info .

— whuber

@ttnphns Você consideraria postar uma resposta aqui com base em seu comentário acima? Acabei de iniciar uma recompensa aqui, porque variações dessa pergunta continuam aparecendo e não podemos fechá-las como duplicatas, porque não há resposta satisfatória em lugar algum.

— Ameba diz Reinstate Monica

Essa resposta é deliberadamente não matemática e é orientada para o psicólogo não estatístico (por exemplo), que pergunta se ele pode somar / pontuação média de fatores diferentes para obter uma pontuação de "índice composto" para cada respondente.

A soma ou a média das pontuações de algumas variáveis pressupõem que as variáveis pertençam à mesma dimensão e sejam medidas fungíveis. (Na questão, "variáveis" são pontuações de componentes ou fatores , o que não muda nada, pois são exemplos de variáveis.)

Realmente (Fig. 1), os entrevistados 1 e 2 podem ser vistos como igualmente atípicos (ou seja, desviados de 0, o local do centro de dados ou a origem da escala), ambos com a mesma pontuação média e . O valor é válido, como a extensão da atipicidade, para o construto tão perfeitamente quanto para e $(.8+.8)/2=.8$ $(1.2+.4)/2=.8$ $.8$ $X+Y$ $X$ $Y$ separadamente. Variáveis correlacionadas, representando a mesma dimensão, podem ser vistas como medidas repetidas da mesma característica e a diferença ou não equivalência de suas pontuações como erro aleatório. É, portanto, warranded a soma / média das notas atribuídas desde são esperados erros aleatórios que se anulam mutuamente em spe .

Não é assim se e não se correlacionam o suficiente para serem vistos na mesma "dimensão". Para então, o desvio / atipicidade de um respondente é transmitido pela distância euclidiana da origem (Fig. 2). $X$ $Y$

Essa distância é diferente para os entrevistados 1 e 2: e $\sqrt{.8^2+.8^2} \approx 1.13$ , - responda 2 afastando-se mais. Se as variáveis são dimensões independentes, a distância euclidiana ainda relaciona a posição de um respondente com a referência zero, mas a pontuação média não. Tome apenas um exemplo máximo come. Do "ponto de vista" da pontuação média, esse respondente é absolutamente típico, como,. Isso é verdade para você? $\sqrt{1.2^2+.4^2} \approx 1.26$ $X=.8$ $Y=-.8$ $X=0$ $Y=0$

Outra resposta aqui menciona soma ponderada ou médio, ou seja, com alguns pesos razoáveis, por exemplo - se , são componentes principais - proporcionais ao r componente. desvio ou variância. Mas essa ponderação não muda nada em princípio, apenas estica e aperta o círculo na Fig. 2 ao longo dos eixos em uma elipse. Pesos , $w_XX_i+w_YY_i$ $X$ $Y$ $w_X$ $w_Y$ são definidos constantes para todos os entrevistados i, que é a causa da falha. Para relacionar o desvio bivariado de um entrevistado - em um círculo ou elipse - devem ser introduzidos pesos dependentes de suas pontuações; a distância euclidiana considerada anteriormente é na verdade um exemplo dessa soma ponderada com pesos dependentes dos valores. E se é importante para você incorporar variações desiguais das variáveis (por exemplo, dos componentes principais, como na pergunta), você pode calcular a distância euclidiana ponderada, a distância que será encontrada na Fig. 2 depois que o círculo se alongar.

A distância euclidiana (ponderada ou não) como desvio é a solução mais intuitiva para medir a atipicidade bivariada ou multivariada dos entrevistados. Baseia-se no pressuposto das variáveis não corrigidas ("independentes"), formando um espaço isotrópico suave. A distância de Manhatten pode ser uma das outras opções. Ele visualiza o espaço do recurso como composto por blocos, de modo que apenas distâncias horizontais / eretas, e não diagonais, são permitidas. e $|.8|+|.8|=1.6$ $|1.2|+|.4|=1.6$ dar atipicalidades iguais em Manhattan para dois de nossos entrevistados; na verdade, é a soma das pontuações - mas somente quando as pontuações são todas positivas. No caso de e a distância é mas a soma é . $X=.8$ $Y=-.8$ $1.6$ $0$

(Você pode exclamar "Farei todas as pontuações de dados positivas e computarei a soma (ou média) com boa consciência desde que escolhi a distância de Manhatten", mas pense: você está certo em mudar a origem livremente? Principais componentes ou fatores, por exemplo, são extraídos sob a condição de os dados serem centrados na média, o que faz sentido. Outra origem teria produzido outros componentes / fatores com outras pontuações. Não, na maioria das vezes você pode não brincar com a origem - o locus de "entrevistado típico" ou de "característica de nível zero" - como você gosta de jogar.)

Em suma , se o objetivo do construto composto é refletir as posições dos respondentes em relação a algum "zero" ou locus típico, mas as variáveis quase não se correlacionam, algum tipo de distância espacial dessa origem e não média (ou soma) ponderada ou não ponderado, deve ser escolhido.

Bem, a média (soma) fará sentido se você decidir visualizar as variáveis (não correlacionadas) como modos alternativos para medir a mesma coisa. Dessa forma, você está deliberadamente ignorando a natureza diferente das variáveis. Em outras palavras, você conscientemente deixa a Figura 2 em favor da Figura 1: você "esquece" que as variáveis são independentes. Então - soma ou média. Por exemplo, a pontuação no "bem-estar material" e no "bem-estar emocional" pode ser calculada, da mesma forma que as pontuações no "QI espacial" e no "QI verbal". Esse tipo de prática puramente pragmática, os compostos não aprovados satisfatoriamente são chamados de índices de bateria (uma coleção de testes ou questionários que medem itens não relacionados ou correlatos cujas correlações ignoramos são chamadas de "bateria"). Os índices de bateria só fazem sentido se as pontuações tiverem a mesma direção (como riqueza e saúde emocional são vistas como pólo "melhor"). Sua utilidade fora de configurações ad hoc estreitas é limitada.

Se as variáveis estão entre as relações - elas são consideravelmente correlacionadas ainda não suficientemente fortes para vê-las como duplicatas, alternativas uma da outra, geralmente somamos (ou calculamos a média) seus valores de maneira ponderada. Então esses pesos devem ser cuidadosamente projetados e devem refletir, dessa ou daquela maneira, as correlações. É o que fazemos, por exemplo, por meio de PCA ou análise fatorial (FA), onde calculamos especialmente as pontuações de componentes / fatores. Se suas variáveis já são pontuações de componentes ou fatores (como a pergunta OP aqui diz) e estão correlacionadas (devido à rotação oblíqua), você pode submetê-las (ou diretamente a matriz de carregamento) ao PCA / FA de segunda ordem para encontrar os pesos e obtenha o PC / fator de segunda ordem que servirá o "índice composto" para você.

Porém, se as pontuações de seus componentes / fatores não foram correlacionadas ou estão pouco correlacionadas, não há razão estatística nem para somar sem rodeios nem por meio da dedução de pesos. Use alguma distância. O problema da distância é que ela é sempre positiva: você pode dizer o quão atípico é um entrevistado, mas não pode dizer se ele está "acima" ou "abaixo". Mas esse é o preço que você precisa pagar para exigir um único índice do espaço com várias características. Se você quer desvio e sinal em tal espaço, eu diria que você é muito exigente.

No último ponto, o OP pergunta se é correto obter apenas a pontuação de uma variável mais forte em relação à sua variância - 1º componente principal neste caso - como o único proxy, para o "índice". Faz sentido se esse PC é muito mais forte que os demais. Embora se possa perguntar "se é muito mais forte, por que você não extraiu / reteve apenas o único?".

— ttnphns
fonte

Criando índice composto usando o PCA a partir de links de séries temporais para http://www.cup.ualberta.ca/wp-content/uploads/2013/04/SEICUPWebsite_10April13.pdf .

Nesse artigo, na página 19, os autores mencionam uma maneira de criar um Índice Não Padronizado (NSI) usando a proporção da variação explicada por cada fator à variação total explicada pelos fatores escolhidos. Este NSI foi então normalizado.

— SACHIN GARG
fonte

Essa seção da página 19 faz exatamente essa pergunta questionável e problemática de somar maçãs e laranjas contra as quais eu e a ameba nos advertiram nos comentários acima. A soma de variáveis não correlacionadas em um índice dificilmente tem significado estatístico .

— Ttnphns 16/05

Às vezes, adicionamos construções / escalas / testes não correlacionados e medimos coisas diferentes. Esse seria o índice da bateria (testes que são considerados bastante diferentes / não correlacionados são chamados de "bateria"). Um índice de bateria pode ter algum sentido pragmático local , embora quase não tenha um significado estatístico , como dito no comentário anterior.

— ttnphns

consulte também a pergunta stats.stackexchange.com/q/236786/3277 .

— ttnphns

-1 devido ao que está escrito acima.

— Ameba diz Reinstate Monica