Estatísticas e Big Data dimensionality-reduction

2

Quando combinamos redução de dimensionalidade com clustering?

Estou tentando executar o cluster no nível do documento. Eu construí a matriz de frequência termo-documento e estou tentando agrupar esses vetores de alta dimensão usando k-means. Em vez de agrupar diretamente, o que eu fiz foi aplicar primeiro a decomposição de vetor singular do LSA (Latent Semantic Analysis) para …

16 clustering pca dimensionality-reduction text-mining svd

1

Qual é a conexão entre mínimos quadrados parciais, regressão de classificação reduzida e regressão de componentes principais?

A regressão de classificação reduzida e a regressão de componentes principais são apenas casos especiais de mínimos quadrados parciais? Este tutorial (Página 6, "Comparação de objetivos") afirma que, quando fazemos mínimos quadrados parciais sem projetar X ou Y (ou seja, "não parcial"), ele se torna uma regressão de classificação reduzida …

16 regression pca dimensionality-reduction partial-least-squares reduced-rank-regression

2

Métodos para mesclar / reduzir categorias em dados ordinais ou nominais?

Estou lutando para encontrar um método para reduzir o número de categorias em dados nominais ou ordinais. Por exemplo, digamos que eu queira criar um modelo de regressão em um conjunto de dados que possua vários fatores nominais e ordinais. Embora não tenha problemas com esta etapa, frequentemente encontro situações …

14 r categorical-data dimensionality-reduction many-categories

4

Quais variáveis explicam quais componentes do PCA e vice-versa?

Usando estes dados: head(USArrests) nrow(USArrests) Eu posso fazer um PCA da seguinte maneira: plot(USArrests) otherPCA <- princomp(USArrests) Eu posso obter os novos componentes em otherPCA$scores ea proporção de variância explicada pelos componentes com summary(otherPCA) Mas e se eu quiser saber quais variáveis são explicadas principalmente por quais componentes principais? E …

14 r pca dimensionality-reduction regression-strategies

3

Escolhendo os hiperparâmetros usando T-SNE para classificação

No problema específico em que trabalho (uma competição), tenho a seguinte configuração: 21 recursos (numéricos em [0,1]) e uma saída binária. Eu tenho aproximadamente 100 mil linhas. A configuração parece ser muito barulhenta. Eu e outros participantes aplicamos a geração de recursos por um tempo e a incorporação estocástica de …

13 machine-learning dimensionality-reduction unsupervised-learning tsne

1

Redução de dimensionalidade supervisionada

Eu tenho um conjunto de dados que consiste em 15 mil amostras marcadas (de 10 grupos). Quero aplicar a redução de dimensionalidade em duas dimensões, que levariam em consideração o conhecimento dos rótulos. Quando uso técnicas de redução de dimensionalidade não supervisionadas "padrão", como o PCA, o gráfico de dispersão …

13 machine-learning pca dimensionality-reduction supervised-learning discriminant-analysis

2

Qual é a diferença entre seleção de recurso e redução de dimensionalidade?

Eu sei que a seleção de recursos e a redução de dimensionalidade visam reduzir o número de recursos no conjunto original de recursos. Qual é a diferença exata entre os dois se estivermos fazendo a mesma coisa nos dois?

13 machine-learning pca feature-selection dimensionality-reduction

3

PCA em dados de texto de alta dimensão antes da classificação aleatória da floresta?

Faz sentido fazer o PCA antes de executar uma Classificação Florestal Aleatória? Estou lidando com dados de texto de alta dimensão e quero reduzir os recursos para evitar a maldição da dimensionalidade, mas as florestas aleatórias já não têm algum tipo de redução de dimensão?

13 classification pca random-forest dimensionality-reduction high-dimensional

1

Álgebra de LDA. Poder de discriminação de Fisher de uma variável e Análise Discriminante Linear

Pelo visto, a análise de Fisher visa maximizar simultaneamente a separação entre classes, enquanto minimiza a dispersão dentro da classe. Uma medida útil do poder de discriminação de uma variável é, por conseguinte, dada pela quantidade diagonal: Bii/WiiBii/WiiB_{ii}/W_{ii} . http://root.cern.ch/root/htmldoc/TMVA__MethodFisher.html Eu entendo que o tamanho ( p x p) das …

13 algorithms dimensionality-reduction discriminant-analysis sums-of-squares

2

Posso fazer um PCA em medidas repetidas para redução de dados?

Eu tenho 3 ensaios cada um com 87 animais em cada um dos 2 contextos (alguns dados ausentes; nenhum dado ausente = 64 animais). Dentro de um contexto, tenho muitas medidas específicas (hora de entrar, número de vezes que retornam para abrigo, etc), assim que eu quero desenvolver 2 a …

13 repeated-measures pca dimensionality-reduction

1

Explique as etapas do algoritmo LLE (incorporação linear local)?

Entendo que o princípio básico por trás do algoritmo para LLE consiste em três etapas. Localizando a vizinhança de cada ponto de dados por alguma métrica como k-nn. Encontre pesos para cada vizinho que denotem o efeito que o vizinho tem no ponto de dados. Construa a incorporação de baixa …

13 machine-learning model-selection feature-selection dimensionality-reduction nonlinear

1

Qual é o significado dos eixos no t-SNE?

Atualmente, estou tentando entender a matemática do t-SNE . Infelizmente, ainda há uma pergunta que não consigo responder satisfatoriamente: qual é o significado real dos eixos em um gráfico t-SNE? Se eu fosse fazer uma apresentação sobre esse tópico ou incluí-lo em qualquer publicação: Como rotularia os eixos de maneira …

12 machine-learning dimensionality-reduction tsne

5

Como executar a imputação de valores em um número muito grande de pontos de dados?

Eu tenho um conjunto de dados muito grande e faltam cerca de 5% de valores aleatórios. Essas variáveis estão correlacionadas entre si. O exemplo a seguir do conjunto de dados R é apenas um exemplo de brinquedo com dados correlatos simulados. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

1

Como escolher um kernel para o kernel PCA?

Quais são as maneiras de escolher qual kernel resultaria em boa separação de dados na saída final de dados pelo kernel PCA (análise de componentes principais) e quais são as maneiras de otimizar os parâmetros do kernel? Os termos de Layman, se possível, seriam muito apreciados, e links para artigos …

12 pca cross-validation dimensionality-reduction kernel-trick manifold-learning

4

Executando PCA com apenas uma matriz de distância

Quero agrupar um conjunto de dados massivo para o qual tenho apenas as distâncias aos pares. Eu implementei um algoritmo k-medoids, mas está demorando muito para ser executado, então eu gostaria de começar reduzindo a dimensão do meu problema aplicando o PCA. No entanto, a única maneira que sei executar …

12 pca dimensionality-reduction multidimensional-scaling

Perguntas com a marcação «dimensionality-reduction»