Estatísticas e Big Data pca

2

Interpretação de biplots na análise de componentes principais

Encontrei este belo tutorial: Um manual de análises estatísticas usando R. Capítulo 13. Análise de componentes principais: O heptatlo olímpico sobre como fazer PCA na linguagem R. Não entendo a interpretação da Figura 13.3: Então, eu estou plotando o primeiro vetor próprio vs o segundo vetor próprio. O que isso …

30 r pca data-visualization interpretation biplot

1

Como a centralização faz a diferença no PCA (para decomposição de SVD e eigen)?

Que diferença faz a centralização (ou remoção do significado) de seus dados para o PCA? Ouvi dizer que isso facilita a matemática ou impede que o primeiro PC seja dominado pelos meios das variáveis, mas sinto que ainda não fui capaz de entender o conceito com firmeza. Por exemplo, a …

30 r pca svd eigenvalues centering

1

Fazendo análise de componente principal ou análise fatorial em dados binários

Eu tenho um conjunto de dados com um grande número de respostas Sim / Não. Posso usar componentes principais (PCA) ou qualquer outra análise de redução de dados (como análise fatorial) para esse tipo de dados? Por favor, informe como eu faço isso usando o SPSS.

30 spss categorical-data pca factor-analysis binary-data

5

Como lidar com dados hierárquicos / aninhados no aprendizado de máquina

Vou explicar meu problema com um exemplo. Suponha que você queira prever a renda de um indivíduo, com alguns atributos: {Idade, Sexo, País, Região, Cidade}. Você tem um conjunto de dados de treinamento como esse train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

1

Melhores métodos de extração de fatores na análise fatorial

O SPSS oferece vários métodos de extração fatorial: Componentes principais (que não são análise de fatores) Mínimos quadrados não ponderados Mínimos quadrados generalizados Máxima verossimilhança Eixo principal Factoring alfa Factoring de imagem Ignorando o primeiro método, que não é análise fatorial (mas análise de componentes principais, PCA), qual desses métodos …

29 spss pca factor-analysis

3

Como executar a regressão ortogonal (total de mínimos quadrados) via PCA?

Eu sempre uso lm()em R para executar regressão linear de yyy em . Essa função retorna um coeficiente tal quexxxββ\betay=βx.y=βx.y = \beta x. Hoje eu aprendi sobre o total de mínimos quadrados e essa princomp()função (análise de componentes principais, PCA) pode ser usada para realizá-lo. Deve ser bom para mim …

29 r pca least-squares deming-regression total-least-squares

4

Por que Andrew Ng prefere usar SVD e não EIG da matriz de covariância para fazer PCA?

Estou estudando PCA no curso Coursera de Andrew Ng e outros materiais. Na primeira tarefa do curso de PNL de Stanford, cs224n , e no vídeo da aula de Andrew Ng , eles fazem decomposição de valor singular em vez de decomposição de vetor próprio da matriz de covariância, e …

29 pca linear-algebra svd eigenvalues numerics

1

Existe análise fatorial ou PCA para dados ordinais ou binários?

Concluí a análise de componentes principais (PCA), análise fatorial exploratória (EFA) e análise fatorial confirmatória (CFA), tratando dados em escala likert (respostas em cinco níveis: nenhuma, um pouco, algumas, etc.) como contínua variável. Em seguida, usando Lavaan, repeti o CFA definindo as variáveis como categóricas. Gostaria de saber para que …

28 pca factor-analysis ordinal-data binary-data likert

1

Os graus de liberdade podem ser um número não inteiro?

Quando uso o GAM, o DF residual é (última linha do código). O que isso significa? Indo além do exemplo do GAM, em geral, o número de graus de liberdade pode ser um número não inteiro?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

4

O que há de errado com t-SNE vs PCA para redução dimensional usando R?

Eu tenho uma matriz de números de ponto flutuante 336x256 (336 genomas bacterianos (colunas) x 256 frequências tetranucleotídicas normalizadas (linhas), por exemplo, todas as colunas somam 1). Eu obtenho bons resultados quando executo minha análise usando a análise de componentes principais. Primeiro, calculo os clusters de kmeans nos dados, depois …

27 r pca tsne

4

Tamanho mínimo da amostra para PCA ou FA quando o objetivo principal é estimar apenas alguns componentes?

Se tiver um conjunto de dados com nnn observações e ppp variáveis (dimensões), e, geralmente, nnn é pequeno ( n = 12 - 16n=12-16n=12-16 ), e ppp podem variar desde pequenos ( p = 4 - 10p=4-10p = 4-10 ) para talvez muito maior ( p = 30 - 50p=30-50.p= …

27 pca sample-size factor-analysis

5

O que pode fazer com que o PCA agrave os resultados de um classificador?

Eu tenho um classificador no qual estou fazendo validação cruzada, juntamente com mais ou menos cem recursos nos quais estou fazendo a seleção direta para encontrar combinações ideais de recursos. Também comparo isso com a execução dos mesmos experimentos com o PCA, onde utilizo os recursos em potencial, aplico SVD, …

27 classification pca feature-selection

1

Por que o PCA é sensível a valores discrepantes?

Existem muitos posts neste SE que discutem abordagens robustas para a análise de componentes principais (PCA), mas não consigo encontrar uma única boa explicação de por que o PCA é sensível a discrepâncias em primeiro lugar.

26 machine-learning pca outliers

1

Qual norma do erro de reconstrução é minimizada pela matriz de aproximação de baixa classificação obtida com o PCA?

Dado um PCA (ou SVD) aproximação de matriz XXX com uma matriz X , sabemos que X é o melhor baixo-rank aproximação das X .X^X^\hat XX^X^\hat XXXX Isso está de acordo com a norma induzida ∥⋅∥2∥⋅∥2\parallel \cdot \parallel_2 (ou seja, a maior norma de autovalor) ou de acordo com a …

26 pca svd matrix-decomposition

7

Teste de dependência linear entre as colunas de uma matriz

Eu tenho uma matriz de correlação de retornos de segurança cujo determinante é zero. (Isso é um pouco surpreendente, pois a matriz de correlação da amostra e a matriz de covariância correspondente devem teoricamente ser definidas positivamente.) Minha hipótese é que pelo menos um título seja linearmente dependente de outros …

26 r correlation pca linear-model svd

Perguntas com a marcação «pca»