Estou tentando compilar uma lista de algoritmos de clustering que são:
- Implementado em R
- Opere em matrizes de dados esparsas (não matrizes de (des) similaridade), como aquelas criadas pela função sparseMatrix .
Existem várias outras perguntas no CV que discutem esse conceito, mas nenhuma delas se vincula aos pacotes R que podem operar diretamente em matrizes esparsas:
- Agrupando conjuntos de dados grandes e esparsos
- Agrupando dados binários esparsos de alta dimensão
- Procurando implementação de cluster esparsa e de alta dimensão
- Cluster com economia de espaço
Até agora, encontrei exatamente uma função no R que pode agrupar matrizes esparsas:
skmeans : km esféricos
Do pacote skmeans . kmeans usando a distância do cosseno . Opera em objetos dgTMatrix. Fornece uma interface para um algoritmo genético k-means, pclust, CLUTO, gmeans e kmndirs.
Exemplo:
library(Matrix)
set.seed(42)
nrow <- 1000
ncol <- 10000
i <- rep(1:nrow, sample(5:100, nrow, replace=TRUE))
nnz <- length(i)
M1 <- sparseMatrix(i = i,
j = sample(ncol, nnz, replace = TRUE),
x = sample(0:1 , nnz, replace = TRUE),
dims = c(nrow, ncol))
M1 <- M1[rowSums(M1) != 0, colSums(M1) != 0]
library(skmeans)
library(cluster)
clust_sk <- skmeans(M1, 10, method='pclust', control=list(verbose=TRUE))
summary(silhouette(clust_sk))
Os algoritmos a seguir recebem menções honrosas: não são algoritmos de cluster, mas operam em matrizes esparsas.
apriori : associação regras mineração
Do pacote arules . Opera em objetos "transações", que podem ser coagidos a partir de objetos ngCMatrix. Pode ser usado para fazer recomendações.
exemplo:
library(arules)
M1_trans <- as(as(t(M1), 'ngCMatrix'), 'transactions')
rules <- apriori(M1_trans, parameter =
list(supp = 0.01, conf = 0.01, target = "rules"))
summary(rules)
irlba : SVD esparso
Do pacote irlba . Faz SVD em matrizes esparsas. Pode ser usado para reduzir a dimensionalidade de matrizes esparsas antes do agrupamento com pacotes R tradicionais.
exemplo:
library(irlba)
s <- irlba(M1, nu = 0, nv=10)
M1_reduced <- as.matrix(M1 %*% s$v)
clust_kmeans <- kmeans(M1, 10)
summary(silhouette(clust_kmeans$cluster, dist(M1_reduced)))
apcluster : Agrupamento de propagação de afinidade
library(apcluster)
sim <- crossprod(M1)
sim <- sim / sqrt(sim)
clust_ap <- apcluster(sim) #Takes a while
Que outras funções existem por aí?