Esses termos aparecem em alguns livros sobre estatísticas multivariadas. Suponha que você tenha n
indivíduos por p
matriz de dados de características quantitativas. Em seguida, você pode plotar indivíduos como pontos no espaço em que os eixos são os recursos. Esse será o gráfico de dispersão clássico, também conhecido como gráfico de espaço variável . Dizemos que a nuvem de indivíduos ocupa o espaço definido pelos eixos-características.
Você também pode conceber o gráfico de dispersão, com pontos sendo as variáveis e os eixos sendo os indivíduos. Absolutamente como o anterior, apenas de pernas para o ar. Esse será o gráfico do espaço do sujeito (ou gráfico do espaço de observação) com as variáveis que o abrangem, os indivíduos o definindo.
Observe que se (com freqüência) n>p
, então, no segundo caso, apenas algumas p
dimensões fora das n
dimensões são não-redundantes; isso significa que você pode e pode desenhar os p
pontos variáveis no p
gráfico bidimensional . Além disso, por tradição, os pontos variáveis são geralmente conectados à origem e, portanto, aparecem como vetores (setas). Usamos a representação do espaço de assunto principalmente para mostrar relações entre variáveis; portanto, largamos os eixos-assuntos e representamos pontos como setas, por conveniência.1 1
Se os recursos (colunas da matriz de dados) foram centralizados antes de desenhar o gráfico de espaço do sujeito, os cossenos dos ângulos entre os vetores variáveis são iguais às correlações de Pearson, enquanto os comprimentos dos vetores são iguais às normas das variáveis (soma raiz dos quadrados ) ou desvios padrão (se divididos pelo df ).
O espaço variável e o espaço sujeito são dois lados da mesma moeda, são o mesmo espaço analítico euclidiano, apenas apresentados espelhados um ao outro. Eles compartilham as mesmas propriedades, como os valores próprios e os vetores próprios diferentes de zero. É possível, portanto, traçar sujeitos e variáveis lado a lado como pontos no espaço dos eixos principais (ou outra base ortogonal) desse espaço analítico - esse gráfico conjunto é chamado de biplot . Não sei exatamente o que significa "espaço de dados" - se isso significa algo específico, suponho que seja esse espaço analítico comum, do qual espaço sujeito e espaço variável são as duas hipóstases.
Alguns links locais:
- Imagens mostrando a representação no espaço sujeito dos componentes principais (PCA), regressão linear e análise fatorial , novamente regressão . Compare isso com a representação tradicional de espaço variável (gráfico de dispersão) de regressão e PCA .
- Explicação teórica do biplot . Um auto-estudo explicando a estrutura do biplot no PCA .
- Consulte também um post tentando descobrir se é possível resolver geometricamente a tarefa PCA no gráfico de espaço em questão (parece que os PCs definem a elipse; mas como encontrar essa elipse exclusiva?).
1 1 Imagine que você tem n=5
indivíduos e p=2
variáveis e, de alguma forma, conseguiu magicamente desenhar os 2 pontos no espaço 5-dimensional. Em seguida, você pode girar o subespaço definido por qualquer 2 dos eixos de forma que incorpore os 2 pontos (que abrangem esse plano a partir de agora); depois disso, você solta com segurança os outros 3 eixos (dimensões), pois eles se tornam desnecessários. A posição dos dois pontos variáveis em relação um ao outro foi preservada.