Estatísticas e Big Data clustering

3

A maioria dos algoritmos de agrupamento que eu vi começou com a criação de distâncias cada um entre todos os pontos, o que se torna problemático em conjuntos de dados maiores. Existe alguém que não faz isso? Ou faz isso em algum tipo de abordagem parcial / aproximada / escalonada? …

9 clustering algorithms large-data

4

Como executar vários testes qui-quadrado post-hoc em uma tabela 2 X 3?

Meu conjunto de dados é composto pela mortalidade total ou pela sobrevivência de um organismo em três tipos de locais, costeiros, canais intermediários e offshore. Os números na tabela abaixo representam o número de sites. 100% Mortality 100% Survival Inshore 30 31 Midchannel 10 20 Offshore 1 10 Gostaria de …

9 logistic multiple-comparisons chi-squared r text-mining clustering classification feature-selection unsupervised-learning time-series references mode hypothesis-testing confidence-interval bootstrap normal-distribution order-statistics correlation statistical-significance spss bayesian beta-binomial

2

Introdução ao biclustering

Eu tenho feito algumas pesquisas casuais na Internet sobre biclusters. (Eu li o artigo da Wiki várias vezes.) Até agora, parece que existem poucas definições ou terminologia padrão. Fiquei me perguntando se havia algum documento ou livro padrão que alguém interessado em algoritmos para encontrar biclusters deveria ler. É possível …

9 clustering data-mining

2

Calcular curva ROC para dados

Portanto, tenho 16 ensaios em que estou tentando autenticar uma pessoa de uma característica biométrica usando a Distância de Hamming. Meu limite está definido como 3,5. Meus dados estão abaixo e apenas o teste 1 é um verdadeiro positivo: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

Calcular critério de clustering BIC (para validar clusters após médias K)

Gostaria de saber se existe uma boa maneira de calcular o critério de agrupamento com base na fórmula BIC, para uma saída k-Médias em R? Estou um pouco confuso sobre como calcular esse BIC para que eu possa compará-lo com outros modelos de cluster. Atualmente, estou usando a implementação do …

9 r clustering k-means bic

1

Critérios de cotovelo para determinar o número de aglomerados

É mencionado aqui que um dos métodos para determinar o número ideal de clusters em um conjunto de dados é o "método do cotovelo". Aqui, a porcentagem de variação é calculada como a razão da variação entre os grupos e a variação total. Senti-me difícil ao entender esse cálculo. Alguém …

9 clustering k-means

3

Como executar SVD para atribuir valores ausentes, um exemplo concreto

Eu li os ótimos comentários sobre como lidar com valores ausentes antes de aplicar o SVD, mas gostaria de saber como ele funciona com um exemplo simples: Movie1 Movie2 Movie3 User1 5 4 User2 2 5 5 User3 3 4 User4 1 5 User5 5 1 5 Dada a matriz …

8 r missing-data data-imputation svd sampling matlab mcmc importance-sampling predictive-models prediction algorithms graphical-model graph-theory r regression regression-coefficients r-squared r regression modeling confounding residuals fitting glmm zero-inflation overdispersion optimization curve-fitting regression time-series order-statistics bayesian prior uninformative-prior probability discrete-data kolmogorov-smirnov r data-visualization histogram dimensionality-reduction classification clustering accuracy semi-supervised labeling state-space-models t-test biostatistics paired-comparisons paired-data bioinformatics regression logistic multiple-regression mixed-model random-effects-model neural-networks error-propagation numerical-integration time-series missing-data data-imputation probability self-study combinatorics survival cox-model statistical-significance wilcoxon-mann-whitney hypothesis-testing distributions normal-distribution variance t-distribution probability simulation random-walk diffusion hypothesis-testing z-test hypothesis-testing data-transformation lognormal r regression agreement-statistics classification svm mixed-model non-independent observational-study goodness-of-fit residuals confirmatory-factor neural-networks deep-learning

4

Algoritmos de agrupamento de gráficos que consideram pesos negativos

Eu tenho uma instância de gráfico com arestas direcionadas ponderadas cujos valores podem estar no intervalo [-1,1]. Eu preciso fazer cluster neste gráfico, a fim de descobrir grupos nos quais os vértices estão mais correlacionados. Procurei vários algoritmos baseados em gráficos de cluster ou de detecção de comunidade, mas a …

8 correlation clustering graph-theory networks igraph

1

Quando usar LDA sobre GMM para cluster?

Eu tenho um conjunto de dados contendo atividade do usuário com 168 dimensões, onde desejo extrair clusters usando aprendizado não supervisionado. Não é óbvio para mim se devo usar uma abordagem de modelagem de tópicos na alocação de Dirichlet Latente (LDA) ou Modelos de Mistura Gaussiana (GMM), que é mais …

8 clustering gaussian-mixture unsupervised-learning topic-models

1

Maneira eficiente de calcular distâncias entre centróides a partir da matriz de distância

Vamos ter uma matriz simétrica quadrada de distâncias euclidianas quadradas entre n pontos e o vetor alongado n indicando a associação de grupos ou grupos ( k clusters) dos pontos; um cluster pode consistir em \ ge1 point.nDD\bf Dnnnk ≥ 1nnnkkk≥1≥1\ge1 Qual é a maneira mais eficiente ou realmente eficiente …

8 clustering mean distance euclidean

3

A melhor maneira de agrupar uma matriz de adjacência

Foi difícil interpretar clusters resultantes de uma matriz de adjacência. Eu tenho 200 matrizes relativamente grandes que representam assuntos que contêm correlações parciais (escores z) de séries temporais (dados neurais). O objetivo é agrupar essas 210 matrizes e detectar possíveis comunidades não descobertas. Fiz outros cálculos de correlação parcial, resultando …

8 clustering neuroimaging

3

Usando k-means com outras métricas

Então, percebo que isso já foi perguntado antes: por exemplo, quais são os casos de uso relacionados à análise de cluster de diferentes métricas de distância? mas achei as respostas um tanto contraditórias ao sugerido que deveriam ser possíveis na literatura. Recentemente, li dois artigos que mencionam o uso do …

8 clustering k-means metric

2

Cluster de dados com mistura de variáveis contínuas e categóricas

Eu tenho dados que representam algum aspecto do comportamento humano. Quero agrupá-lo (sem supervisão) em perfis comportamentais de algum tipo. agora, algumas das minhas variáveis são categóricas (com 2 ou mais categorias) e outras são contínuas (a maioria são porcentagens). Algumas variáveis são ainda mais complexas, pois uma categoria tem …

8 r clustering categorical-data continuous-data

1

Modelo não paramétrico de mistura e aglomerados

Eu tenho uma pergunta sobre clusters que estou pensando em tratar com uma abordagem de mistura não paramétrica (eu acho). Estou trabalhando na explicação do comportamento humano. Cada linha do meu banco de dados contém: o ID de alguém alguns parâmetros do ambiente X (exemplo: temperatura, vento, etc.) uma variável …

8 machine-learning clustering computational-statistics mixture

4

Clusters que podem ser causados por meios K

Eu recebi a seguinte pergunta como uma pergunta de teste para o meu exame e simplesmente não consigo entender a resposta. Um gráfico de dispersão dos dados projetados nos dois primeiros componentes principais é mostrado abaixo. Desejamos examinar se existe alguma estrutura de grupo no conjunto de dados. Para fazer …

8 clustering k-means

Perguntas com a marcação «clustering»