Perguntas com a marcação «dimensionality-reduction»

Refere-se a técnicas para reduzir um grande número de variáveis ​​ou dimensões abrangidas pelos dados para um número menor de dimensões, preservando o máximo de informações possível sobre os dados. Métodos de destaque incluem PCA, MDS, Isomap, etc. As duas principais subclasses de técnicas: extração e seleção de recursos.


1
Como reverter o PCA e reconstruir variáveis ​​originais de vários componentes principais?
A análise de componentes principais (PCA) pode ser usada para redução de dimensionalidade. Após a redução dessa dimensionalidade, como se pode reconstruir aproximadamente as variáveis ​​/ características originais de um pequeno número de componentes principais? Como alternativa, como remover ou descartar vários componentes principais dos dados? Em outras palavras, como …


4
PCA e proporção de variância explicada
Em geral, o que se quer dizer com dizer que a fração da variação em uma análise como PCA é explicada pelo primeiro componente principal? Alguém pode explicar isso intuitivamente, mas também fornecer uma definição matemática precisa do que "variação explicada" significa em termos de análise de componentes principais (PCA)?xxx …

2
Qual é a diferença entre o clareamento ZCA e clareamento PCA?
Estou confuso sobre o branqueamento ZCA e o branqueamento normal (que é obtido pela divisão dos componentes principais pelas raízes quadradas dos valores próprios de PCA). Até onde sei, xZCAwhite=UxPCAwhite,xZCAwhite=UxPCAwhite,\mathbf x_\mathrm{ZCAwhite} = \mathbf U \mathbf x_\mathrm{PCAwhite}, que são vetores próprios de PCA.UU\mathbf U Quais são os usos do clareamento ZCA? …

6
Maneira básica de colapsar variáveis ​​categóricas com muitos níveis?
Quais técnicas estão disponíveis para recolher (ou agrupar) muitas categorias para algumas, com o objetivo de usá-las como uma entrada (preditora) em um modelo estatístico? Considere uma variável como estudante universitário (disciplina escolhida por um estudante de graduação). É desordenado e categórico, mas pode potencialmente ter dezenas de níveis distintos. …


2
Quando o t-SNE é enganoso?
Citando um dos autores: A Incorporação Estocástica de Vizinhança Distribuída t (SNE) é uma técnica ( premiada ) para redução de dimensionalidade que é particularmente adequada para a visualização de conjuntos de dados de alta dimensão. Parece ótimo, mas esse é o autor falando. Outra citação do autor (re: a …


1
Qual é a razão intuitiva por trás das rotações na Análise Fatorial / PCA e como selecionar a rotação apropriada?
Minhas perguntas Qual é a razão intuitiva por trás da rotação de fatores na análise fatorial (ou componentes no PCA)? Meu entendimento é que, se as variáveis ​​são quase igualmente carregadas nos principais componentes (ou fatores), então obviamente é difícil diferenciar os componentes. Portanto, neste caso, pode-se usar a rotação …


1
Redução de dimensionalidade (SVD ou PCA) em uma matriz grande e esparsa
/ editar: Acompanhamento adicional agora você pode usar o irlba :: prcomp_irlba / edit: acompanhando meu próprio post. irlbaagora possui argumentos de "centro" e "escala", que permitem usá-lo para calcular componentes principais, por exemplo: pc <- M %*% irlba(M, nv=5, nu=0, center=colMeans(M), right_only=TRUE)$v Eu tenho um grande número Matrixde recursos …

5
Como lidar com dados hierárquicos / aninhados no aprendizado de máquina
Vou explicar meu problema com um exemplo. Suponha que você queira prever a renda de um indivíduo, com alguns atributos: {Idade, Sexo, País, Região, Cidade}. Você tem um conjunto de dados de treinamento como esse train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …
29 regression  machine-learning  multilevel-analysis  correlation  dataset  spatial  paired-comparisons  cross-correlation  clustering  aic  bic  dependent-variable  k-means  mean  standard-error  measurement-error  errors-in-variables  regression  multiple-regression  pca  linear-model  dimensionality-reduction  machine-learning  neural-networks  deep-learning  conv-neural-network  computer-vision  clustering  spss  r  weighted-data  wilcoxon-signed-rank  bayesian  hierarchical-bayesian  bugs  stan  distributions  categorical-data  variance  ecology  r  survival  regression  r-squared  descriptive-statistics  cross-section  maximum-likelihood  factor-analysis  likert  r  multiple-imputation  propensity-scores  distributions  t-test  logit  probit  z-test  confidence-interval  poisson-distribution  deep-learning  conv-neural-network  residual-networks  r  survey  wilcoxon-mann-whitney  ranking  kruskal-wallis  bias  loss-functions  frequentist  decision-theory  risk  machine-learning  distributions  normal-distribution  multivariate-analysis  inference  dataset  factor-analysis  survey  multilevel-analysis  clinical-trials 


2
Por que o LDA scikit-learn do Python não está funcionando corretamente e como ele calcula o LDA via SVD?
Eu estava usando a Análise Discriminante Linear (LDA) da scikit-learnbiblioteca de aprendizado de máquina (Python) para redução de dimensionalidade e fiquei um pouco curioso sobre os resultados. Gostaria de saber agora o que o LDA scikit-learnestá fazendo para que os resultados pareçam diferentes, por exemplo, de uma abordagem manual ou …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.