Estatísticas e Big Data pca

3

Quando você usaria o PCA em vez do LDA na classificação?

Estou lendo este artigo sobre a diferença entre Análise de Componentes Principais e Análise Discriminante Múltipla (Análise Discriminante Linear), e estou tentando entender por que você usaria o PCA em vez do MDA / LDA. A explicação é resumida da seguinte forma: grosso modo, no PCA, estamos tentando encontrar os …

10 classification pca dimensionality-reduction discriminant-analysis

1

Como obter "autovalores" (porcentagens de variância explicada) de vetores que não são autovetores de PCA?

Gostaria de entender como posso obter a porcentagem de variação de um conjunto de dados, não no espaço de coordenadas fornecido pelo PCA, mas em um conjunto ligeiramente diferente de vetores (rotacionados). set.seed(1234) xx <- rnorm(1000) yy <- xx * 0.5 + rnorm(1000, sd = 0.6) vecs <- cbind(xx, yy) …

10 r variance pca linear-algebra

2

Matriz de covariância inversa vs matriz de covariância em PCA

No PCA, faz diferença se escolhermos os principais componentes da matriz de covariância inversa OU se deixarmos cair autovetores da matriz de covariância correspondentes a grandes valores próprios? Isso está relacionado à discussão neste post .

10 machine-learning pca computational-statistics

2

A Análise de Componentes Principais pode ser usada nos preços das ações / dados não estacionários?

Estou lendo um exemplo dado no livro Machine Learning for Hackers . Primeiro vou elaborar o exemplo e depois falar sobre minha pergunta. Exemplo : Toma um conjunto de dados por 10 anos com preços de 25 ações. Executa o PCA nos 25 preços das ações. Compara o componente principal …

10 time-series pca references covariance stationarity

1

O que se entende por PCA preservando apenas grandes distâncias em pares?

Atualmente, estou lendo a técnica de visualização t-SNE e foi mencionado que uma das desvantagens do uso da análise de componentes principais (PCA) para visualizar dados de alta dimensão é que ela preserva apenas grandes distâncias em pares entre os pontos. Os pontos de significado que estão distantes no espaço …

10 machine-learning data-visualization pca tsne

1

O PCA em grande escala é possível?

O método clássico de análise de componentes principais (PCA) é fazê-lo em uma matriz de dados de entrada cujas colunas têm média zero (o PCA pode "maximizar a variação"). Isso pode ser alcançado facilmente centralizando as colunas. No entanto, quando a matriz de entrada for esparsa, a matriz centralizada será …

10 pca algorithms dimensionality-reduction large-data sparse

1

Por que todos os componentes do PLS juntos explicam apenas uma parte da variação dos dados originais?

Eu tenho um conjunto de dados composto por 10 variáveis. Executei mínimos quadrados parciais (PLS) para prever uma variável de resposta única por essas 10 variáveis, extraí 10 componentes do PLS e calculei a variação de cada componente. Nos dados originais, peguei a soma das variações de todas as variáveis …

10 regression pca covariance-matrix partial-least-squares

1

O PCA ainda é feito através da composição automática da matriz de covariância quando a dimensionalidade é maior que o número de observações?

Eu tenho uma matriz , contendo minhas amostras N = 20 no espaço D = 100- dimensional. Agora desejo codificar minha própria análise de componentes principais (PCA) no Matlab. Eu desprezo X para X_0 primeiro.X N = 20 D = 100 X X 020×10020×10020\times100XXXN=20N=20N=20D=100D=100D=100XXXX0X0X_0 Li no código de alguém que …

10 pca

2

Aplicando o PCA aos Dados de Teste para Propósitos de Classificação

Recentemente, aprendi sobre o maravilhoso PCA e fiz o exemplo descrito na documentação do scikit-learn . Estou interessado em saber como posso aplicar o PCA a novos pontos de dados para fins de classificação. Depois de visualizar o PCA em um plano bidimensional (eixo x, y), vejo que provavelmente posso …

10 classification pca scikit-learn

1

Confusos sobre a explicação visual dos vetores próprios: como os conjuntos de dados visualmente diferentes podem ter os mesmos vetores próprios?

Muitos livros didáticos de estatística fornecem uma ilustração intuitiva de quais são os vetores próprios de uma matriz de covariância: Os vetores u e z formam os vetores próprios (bem, eigenaxes). Isso faz sentido. Mas a única coisa que me confunde é que extraímos autovetores da matriz de correlação , …

10 correlation pca covariance-matrix eigenvalues

2

Quais são as boas métricas para avaliar a qualidade de um ajuste de PCA, a fim de selecionar o número de componentes?

Qual é uma boa métrica para avaliar a qualidade da análise de componentes principais (PCA)? Eu executei esse algoritmo em um conjunto de dados. Meu objetivo era reduzir o número de recursos (a informação era muito redundante). Sei que a porcentagem de variação mantida é um bom indicador da quantidade …

10 machine-learning pca data-mining information-theory

3

A redução de dimensão sempre perde algumas informações?

Como o título diz, a redução de dimensão sempre perde alguma informação? Considere, por exemplo, PCA. Se os dados que eu tenho são muito escassos, eu suponho que uma "melhor codificação" possa ser encontrada (isso está de alguma forma relacionado à classificação dos dados?), E nada seria perdido.

10 pca information-theory information

1

Como interpretar esse biplot do PCA proveniente de uma pesquisa de quais áreas as pessoas estão interessadas?

Antecedentes: perguntei a centenas de participantes da minha pesquisa quanto eles estavam interessados em áreas selecionadas (em escalas Likert de cinco pontos, sendo 1 indicando "não interessado" e 5 indicando "interessado"). Então eu tentei o PCA. A figura abaixo é uma projeção dos dois primeiros componentes principais. As cores são …

10 pca interpretation survey likert biplot

3

Escolha do número de componentes principais a serem retidos

Um método que me foi sugerido é examinar um gráfico de seixos e verificar "cotovelo" para determinar o número correto de PCs a serem usados. Mas se o gráfico não estiver claro, R tem um cálculo para determinar o número? fit <- princomp(mydata, cor=TRUE)

10 r pca

1

Por que Anova () e drop1 () forneceram respostas diferentes para os GLMMs?

Eu tenho um GLMM do formulário: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Quando uso drop1(model, test="Chi"), obtenho resultados diferentes dos que utilizo Anova(model, type="III")na embalagem do carro ou summary(model). Estes dois últimos dão as mesmas respostas. Usando um monte de dados fabricados, …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

Perguntas com a marcação «pca»