Como parte de uma tarefa da Universidade, preciso realizar o pré-processamento de dados em um conjunto de dados brutos bastante grande e multivariado (> 10). Eu não sou um estatístico em nenhum sentido da palavra, então estou um pouco confuso com o que está acontecendo. Peço desculpas antecipadamente pelo que provavelmente é uma pergunta ridiculamente simples - minha cabeça está girando depois de olhar para várias respostas e tentar percorrer as palavras-estatísticas.
Eu li isso:
- O PCA me permite reduzir a dimensionalidade dos meus dados
- Isso é feito ao mesclar / remover atributos / dimensões que se correlacionam bastante (e, portanto, são um pouco desnecessárias)
- Faz isso encontrando vetores próprios nos dados de covariância (graças a um bom tutorial que eu segui para aprender isso)
O que é ótimo.
No entanto, estou realmente lutando para ver como posso aplicar isso praticamente aos meus dados. Por exemplo (este não é o conjunto de dados que usarei, mas uma tentativa de um exemplo decente com o qual as pessoas possam trabalhar), se eu tivesse um conjunto de dados com algo como ...
PersonID Sex Age Range Hours Studied Hours Spent on TV Test Score Coursework Score
1 1 2 5 7 60 75
2 1 3 8 2 70 85
3 2 2 6 6 50 77
... ... ... ... ... ... ...
Não tenho muita certeza de como interpretaria os resultados.
A maioria dos tutoriais que eu vi on-line parece me dar uma visão muito matemática do PCA. Eu fiz algumas pesquisas e as segui - mas ainda não tenho certeza do que isso significa para mim, que está apenas tentando extrair algum tipo de significado dessa pilha de dados que tenho diante de mim.
Simplesmente executar o PCA nos meus dados (usando um pacote de estatísticas) cospe uma matriz NxN de números (onde N é o número de dimensões originais), que é totalmente grego para mim.
Como posso fazer o PCA e aceitar o que recebo de uma maneira que eu possa colocar em inglês simples em termos das dimensões originais?



