Estatísticas e Big Data k-means

2

Interpretando o resultado do agrupamento k-means em R

Eu estava usando a kmeansinstrução de R para executar o algoritmo k-means no conjunto de dados de íris de Anderson. Eu tenho uma pergunta sobre alguns parâmetros que obtive. Os resultados são: Cluster means: Sepal.Length Sepal.Width Petal.Length Petal.Width 1 5.006000 3.428000 1.462000 0.246000 Nesse caso, o que significa "Cluster significa"? …

12 r machine-learning clustering interpretation k-means

2

Como sei que meu algoritmo de agrupamento k-means está sofrendo com a maldição da dimensionalidade?

Eu acredito que o título desta pergunta diz tudo.

12 clustering k-means high-dimensional

4

Existem casos em que não há k ideal em k-médias?

Isso está em minha mente há pelo menos algumas horas. Eu estava tentando encontrar um k ideal para a saída do algoritmo k-means (com uma métrica de similaridade de cosseno ), então acabei plotando a distorção em função do número de clusters. Meu conjunto de dados é uma coleção de …

11 machine-learning clustering k-means

1

R / mgcv: Por que os produtos tensores te () e ti () produzem superfícies diferentes?

O mgcvpacote para Rpossui duas funções para ajustar as interações do produto tensorial: te()e ti(). Entendo a divisão básica do trabalho entre os dois (ajustando uma interação não linear versus decompondo essa interação em efeitos principais e uma interação). O que não entendo é o porquê te(x1, x2)e ti(x1) + …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

3

Qual algoritmo devo usar para agrupar um enorme conjunto de dados binários em poucas categorias?

Eu tenho uma matriz grande (650K linhas * 62 colunas) de dados binários (somente entradas de 0-1). A matriz é praticamente esparsa: cerca de 8% é preenchida. Gostaria de agrupá-lo em 5 grupos - digamos, nomeado de 1 a 5. Tentei agrupar hierarquicamente e não foi capaz de lidar com …

11 clustering dataset k-means binary-data

2

Agrupamento de dados muito distorcidos e contados: alguma sugestão a ser feita (transformar etc)?

Problema básico Aqui está o meu problema básico: estou tentando agrupar um conjunto de dados que contém algumas variáveis muito assimétricas com contagens. As variáveis contêm muitos zeros e, portanto, não são muito informativas para o meu procedimento de agrupamento - o que provavelmente é um algoritmo k-means. Tudo bem, …

11 clustering data-transformation k-means count-data compositional-data

3

Métodos de inicialização do cluster K-means

Estou interessado no estado da arte atual para selecionar sementes iniciais (centros de cluster) para K-means. O Google leva a duas opções populares: seleção aleatória de sementes iniciais e, usando a técnica de seleção KMeans ++: Arthur & Vassilvitskii 2006 k-means ++: As vantagens da sementeira cuidadosa Existem outros métodos …

10 clustering k-means

3

Médias K em semelhanças de cosseno vs. distância euclidiana (LSA)

Estou usando a análise semântica latente para representar um corpus de documentos no espaço dimensional inferior. Quero agrupar esses documentos em dois grupos usando k-means. Vários anos atrás, eu fiz isso usando o gensim do Python e escrevendo meu próprio algoritmo k-means. Eu determinei os centróides do cluster usando a …

10 k-means svd lsa cosine-distance cosine-similarity

3

Designando rótulos de classe para clusters k-means

Eu tenho uma pergunta muito básica sobre clustering. Depois de encontrar k clusters com seus centróides, como faço para interpretar as classes dos pontos de dados que agrupei (designando rótulos de classe significativos para cada cluster). Não estou falando da validação dos clusters encontrados. Pode ser feito com base em …

10 k-means

1

Por que Anova () e drop1 () forneceram respostas diferentes para os GLMMs?

Eu tenho um GLMM do formulário: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Quando uso drop1(model, test="Chi"), obtenho resultados diferentes dos que utilizo Anova(model, type="III")na embalagem do carro ou summary(model). Estes dois últimos dão as mesmas respostas. Usando um monte de dados fabricados, …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

K-means: quantas iterações em situações práticas?

Como não tenho experiência no setor de mineração de dados ou big data, gostaria de ouvi-lo compartilhar alguma experiência. As pessoas realmente executam k-means, PAM, CLARA etc. em um conjunto de dados realmente grande? Ou eles apenas escolhem aleatoriamente uma amostra? Se eles coletassem apenas uma amostra do conjunto de …

10 clustering data-mining k-means convergence large-data

3

Um exemplo em que a saída do algoritmo k-medóide é diferente da saída do algoritmo k-means

Entendo a diferença entre k medóide e k significa. Mas você pode me dar um exemplo com um pequeno conjunto de dados em que a saída medóide k é diferente de k significa saída.

10 k-means k-medoids

2

Diferença entre PCA e cluster espectral para um pequeno conjunto de amostras de recursos booleanos

Eu tenho um conjunto de dados de 50 amostras. Cada amostra é composta por 11 recursos booleanos (possivelmente correlacionados). Gostaria de visualizar como essas amostras são plotadas em 2D e examinar se existem agrupamentos / agrupamentos entre as 50 amostras. Eu tentei as duas abordagens a seguir: (a) Execute o …

10 clustering data-visualization pca k-means spectral-analysis

1

Número ideal de componentes em uma mistura gaussiana

Portanto, obter uma "idéia" do número ideal de clusters em k-means está bem documentado. Encontrei um artigo sobre como fazer isso em misturas gaussianas, mas não tenho certeza se estou convencido disso, não o entendo muito bem. Existe uma maneira ... mais gentil de fazer isso?

10 classification k-means mixture unsupervised-learning

3

Clustering como redução de dimensionalidade

Estou lendo um livro "Machine learning with Spark", de Nick Pentreath, e na página 224-225 o autor discute sobre o uso de meios K como forma de redução de dimensionalidade. Eu nunca vi esse tipo de redução de dimensionalidade, ele tem um nome ou é útil para formas específicas de …

10 clustering k-means dimensionality-reduction

Perguntas com a marcação «k-means»