Entendendo esse gráfico de PCA de vendas de sorvete versus temperatura

9

Estou usando dados fictícios de temperatura versus vendas de sorvetes e categorizado usando K Keans (n clusters = 2) para distinguir duas categorias (totalmente fictícias).

Agora estou fazendo uma análise de componentes principais nesses dados e meu objetivo é entender o que vejo. Eu sei que o objetivo do PCA é reduzir a dimensionalidade (obviamente não neste caso) e mostrar variação dos elementos. Mas como você lê o gráfico de PCA abaixo, ou seja, qual é a história que você pode contar sobre temperatura versus sorvete no gráfico de PCA? O que significam os 1º (X) e 2º (Y) PCs?

— adhg
fonte

11

Isso deve ser um comentário, mas eu tenho um representante insuficiente. O link abaixo é um excelente tutorial sobre PCA. Particularmente, o Exemplo de Brinquedo alcança um bom equilíbrio entre "simples o suficiente para entender com uma imagem" e "complicado o suficiente para que possa ser usado como uma analogia em problemas futuros". Acho que a leitura pode ajudar a esclarecer o que o PCA pode ou não fazer por você. cs.princeton.edu/picasso/mats/PCA-Tutorial-Intuition_jp.pdf

— Jason

18

Eu sei que o objetivo do PCA é reduzir a dimensionalidade

Isso geralmente é o que as pessoas assumem, mas, na verdade, o PCA é apenas uma representação dos seus dados em uma base ortogonal. Essa base ainda tem a mesma dimensionalidade que seus dados originais. Nada está perdido ... ainda. A parte de redução de dimensionalidade é totalmente sua. O que o PCA garante é que as dimensões superiores de sua nova projeção sejam as melhores dimensões em que seus dados possam ser representados. O que significa melhor? É aí que entra a variação explicada. $k$ $k$

obviamente não neste caso

Eu não teria tanta certeza disso! No seu segundo gráfico, visualmente, parece que muitas informações dos seus dados podem ser projetadas em uma linha horizontal. Essa é uma dimensão, em vez da plotagem original, que estava em duas dimensões! Obviamente, você perde algumas informações porque está removendo o eixo Y, mas a decisão é aceitável para você.

Há uma série de perguntas relacionadas ao que o PCA está no site, por isso encorajo você a consultá-las aqui , aqui , aqui ou aqui . Se você tiver outras perguntas depois disso, poste-as e ficarei feliz em ajudar.

Como sua pergunta real:

qual é a história que você pode contar sobre temperatura versus sorvete na trama do PCA?

Como os novos eixos de coordenadas são uma combinação linear das coordenadas originais, então ... basicamente nada! O PCA fornecerá uma resposta como (números compostos):

\begin{aligned} P C 1 1 & = 2.5 \times sorvete - 3.6. \times temperatura \\ P C 2 & = - 1.5 \times sorvete + 0,6 \times temperatura \end{aligned}

$\begin{split} \mathrm{PC1} &= 2.5\times \text{ice cream} - 3.6\times \text{temperature}\\ \mathrm{PC2} &= -1.5\times \text{ice cream} + 0.6\times \text{temperature} \end{split}$

Isso é útil para você? Talvez. Mas acho que não :)

Editado

Vou adicionar esse recurso que acho útil porque os gráficos interativos são legais.

Editado novamente

$k$

$n > k$ $k$ $k$ $k$

— ilanman
fonte

6

Além disso, certifique-se de dimensionar variáveis. Caso contrário, as vendas (números muito mais altos) explicarão a maioria das variações. Provavelmente por que as unidades nos seus PCs são tão diferentes.

— Filipe

Boa resposta, mas sua afirmação "... as melhores dimensões kk que seus dados poderiam ser representados como ..." é talvez super generalizada. A direção da variação máxima não é necessariamente útil para separar duas classes. De alguma forma, geralmente funciona bem, mas não porque o PCA faz qualquer coisa para fazer as melhores escolhas para um propósito específico.

— Wayne

"de fato, o PCA é apenas uma representação dos seus dados em uma base ortogonal." Estou constantemente surpreendido pelo fato de que muitas pessoas que não entendem este ponto ...

— 3x89g2

5

À boa resposta do homem Ilan, eu acrescentaria que há uma interpretação bastante direta de seus componentes principais, embora neste simples caso 2D não adicione muito ao que poderíamos ter interpretado apenas olhando para o gráfico de dispersão.

O primeiro PC é uma soma ponderada (ou seja, uma combinação linear em que ambos os coeficientes são positivos) de temperatura e consumo de sorvete. No lado direito, você tem dias quentes em que muito sorvete é vendido, e no lado esquerdo, dias mais frios, em que menos sorvete é vendido. Esse PC explica a maior parte de sua variação e os grupos que você possui correspondem a esses dois lados.

O segundo PC mede como a temperatura e o consumo de sorvete se afastam da estreita relação linear sublinhada pelo primeiro PC. Na parte superior do gráfico, temos dias com mais sorvete vendido em comparação com outros dias da mesma temperatura e, na parte inferior, dias com menos sorvete vendido do que o esperado de acordo com a temperatura. Esse PC explica apenas uma pequena parte da variação.

Ou seja, podemos contar uma história dos componentes principais, embora com apenas duas variáveis seja a mesma história que poderíamos ter notado sem o PCA. Com mais variáveis, o PCA se torna mais útil porque conta histórias que seriam mais difíceis de perceber de outra maneira.

— Pere
fonte