Estatísticas e Big Data clustering

8

Eu tenho um algoritmo de cluster (não k-means) com o parâmetro de entrada (número de clusters). Após executar o cluster, eu gostaria de obter uma medida quantitativa da qualidade desse cluster. O algoritmo de clustering tem uma propriedade importante. Para se eu alimentar pontos de dados sem nenhuma distinção significativa …

17 clustering

1

Quebras naturais de Jenks em Python: como encontrar o número ideal de pausas?

Eu encontrei esta implementação em Python do algoritmo Jenks Natural Breaks e poderia fazê-lo rodar na minha máquina Windows 7. É bem rápido e encontra as quebras em pouco tempo, considerando o tamanho dos meus dados geográficos. Antes de usar esse algoritmo de clustering para meus dados, eu estava usando …

17 python clustering optimization

3

Plotar visualmente dados de cluster multidimensionais

Eu tenho um conjunto de dados com 16 variáveis e, depois de agrupar por kmeans, desejo plotar os dois grupos. Que plotagens você sugere para representar visualmente os dois grupos?

17 data-visualization clustering k-means

5

Por que o k-significa não fornece o mínimo global?

Eu li que o algoritmo k-means apenas converge para um mínimo local e não para um mínimo global. Por que é isso? Posso pensar logicamente como a inicialização pode afetar o clustering final e existe a possibilidade de clustering abaixo do ideal, mas não encontrei nada que provasse isso matematicamente. …

17 clustering k-means convergence gradient-descent minimum

4

Métodos de cluster que não requerem a pré-especificação do número de clusters

Existem métodos de cluster "não paramétricos" para os quais não precisamos especificar o número de clusters? E outros parâmetros, como o número de pontos por cluster, etc.

17 clustering

3

Qual algoritmo o ward.D no hclust () implementa se não for o critério de Ward?

A utilizada pela opção "ward.D" (equivalente à única opção Ward "ward" nas versões R <= 3.0.3) não implementa o critério de agrupamento de Ward (1963), enquanto a opção "ward.D2" implementa esse critério ( Murtagh e Legendre 2014). ( http://stat.ethz.ch/R-manual/R-patched/library/stats/html/hclust.html ) Aparentemente, ward.D não implementa corretamente o critério de Ward. No …

16 r clustering ward

4

Agrupando dados 1D

Eu tenho um conjunto de dados, quero criar clusters nesses dados com base em apenas uma variável (não há valores ausentes). Eu quero criar 3 clusters com base nessa variável. Qual algoritmo de clustering usar, k-means, EM, DBSCAN etc.? Minha principal pergunta é: em que circunstâncias devo usar k-means em …

16 clustering

2

Quando combinamos redução de dimensionalidade com clustering?

Estou tentando executar o cluster no nível do documento. Eu construí a matriz de frequência termo-documento e estou tentando agrupar esses vetores de alta dimensão usando k-means. Em vez de agrupar diretamente, o que eu fiz foi aplicar primeiro a decomposição de vetor singular do LSA (Latent Semantic Analysis) para …

16 clustering pca dimensionality-reduction text-mining svd

4

Pressupostos da análise de cluster

Desculpas pela pergunta rudimentar, sou novo nesta forma de análise e tenho uma compreensão muito limitada dos princípios até agora. Eu estava pensando se muitas das suposições paramétricas para testes multivariados / univariados se aplicam à análise de cluster? Muitas das fontes de informação que li sobre a análise de …

16 clustering assumptions

2

Qual é um bom método para agrupar curtos textos?

Estou trabalhando em um problema de cluster de texto. Os dados contêm várias frases. Existe um bom algoritmo que alcance alta precisão em textos curtos? Você pode fornecer boas referências? Algoritmos como KMeans, clustering espectral não funcionam bem para esse problema.

15 machine-learning clustering text-mining

4

A precisão da máquina de aumento de gradiente diminui à medida que o número de iterações aumenta

Estou experimentando o algoritmo da máquina de aumento de gradiente através do caretpacote em R. Usando um pequeno conjunto de dados de admissões de faculdade, executei o seguinte código: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

4

Mineração de texto: como agrupar textos (por exemplo, artigos de notícias) com inteligência artificial?

Eu construí algumas redes neurais (MLP (totalmente conectadas), Elman (recorrente)) para tarefas diferentes, como jogar Pong, classificar dígitos manuscritos e outras coisas ... Além disso, tentei criar algumas primeiras redes neurais convolucionais, por exemplo, para classificar notas manuscritas de vários dígitos, mas sou completamente novo para analisar e agrupar textos, …

15 clustering neural-networks feature-selection text-mining self-organizing-maps

2

Como ajustar o modelo de mistura para agrupamento

Eu tenho duas variáveis - X e Y e preciso tornar o cluster máximo (e ideal) = 5. Vamos traçar o gráfico ideal de variáveis como a seguir: Eu gostaria de fazer 5 grupos disso. Algo assim: Então eu acho que esse é um modelo de mistura com 5 clusters. …

15 r clustering gaussian-mixture

1

Qual é a intuição por trás de amostras intercambiáveis sob a hipótese nula?

Os testes de permutação (também chamados de teste de randomização, teste de re-randomização ou teste exato) são muito úteis e úteis quando a suposição de distribuição normal exigida por, por exemplo, t-testnão é atendida e quando a transformação dos valores pela classificação do teste não-paramétrico como Mann-Whitney-U-testlevaria a mais informações …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

Detecção de séries temporais e anomalias

Gostaria de configurar um algoritmo para detectar uma anomalia em séries temporais, e pretendo usar o cluster para isso. Por que devo usar uma matriz de distância para agrupar e não os dados brutos de séries temporais ?, Para a detecção da anomalia, usarei o cluster baseado em densidade, um …

15 time-series clustering trend

Perguntas com a marcação «clustering»