Como devo interpretar a estatística GAP?

Usei a estatística GAP para estimar k clusters em R. No entanto, não tenho certeza se a interpreto bem. insira a descrição da imagem aqui

A partir da trama acima, presumo que devo usar 3 clusters.

insira a descrição da imagem aqui

No segundo lote, devo escolher 6 grupos. É uma interpretação correta da estatística GAP?

Eu ficaria grato por qualquer explicação.

clustering

— Petereter
fonte

Duas perguntas - Qual é o primeiro enredo exibido? É uma estatística GAP para os mesmos dados? Por que pareceria diferente do segundo (o que eu vejo é um GAP). Quais funções do R você usou? Segunda pergunta: você usou a regra 'erro padrão 1' para escolher 6 para o segundo gráfico?

— precisa saber é o seguinte

Portanto, existem duas abordagens diferentes para agrupar. Primeiro baseado em séries temporais - vendas durante 26 semanas e agrupei dados com base em distorção dinâmica do tempo. A segunda abordagem foi agrupar os parâmetros da curva de crescimento, também com base na distorção dinâmica do tempo. Eu usei com clusGapbase no globalmax, não sabia como implementar o maxSE.

— Peterpeter

Para obter um cluster ideal, você deve selecionar para maximizar a estatística de gap. Aqui está o exemplo dado por Tibshirani et al. (2001) em seu artigo, o gráfico formado por dados artificiais com 2 clusters. Como você pode ver, 2 é claramente o ideal , porque a estatística de gap é maximizada em : $k$ $k$ $k=2$

No entanto, em muitos conjuntos de dados do mundo real, os clusters não são tão bem definidos e queremos equilibrar a maximização da estatística de lacunas com a parcimônia do modelo. Caso em questão: primeira imagem do OP. Se nós estamos maximizando a estatística lacuna por si só , então devemos escolher o modelo com 30 (ou até mais!) Clusters. Supondo que esse gráfico continue aumentando, é claro, os resultados são menos úteis. Portanto, Tibshirani sugere o método de erro 1 padrão :

Escolha o tamanho do cluster para ser o menor modo que . $\hat{k}$ $k$ $\text{Gap}(k) \geq \text{Gap}(k + 1) - s_{k + 1}$

Que informalmente está identificando o ponto em que a taxa de aumento da estatística do gap começa a "desacelerar".

Portanto, na primeira imagem do OP, se considerarmos as barras de erro vermelhas como erro padrão, 3 é o menor que satisfaz esse critério: $k$

Para a segunda imagem do OP, no entanto, você verá que a estatística de intervalo diminui imediatamente para . Portanto, o primeiro que satisfaz o critério de erro 1 padrão é . Essa é a maneira da plotagem dizer que os dados não devem ser agrupados. $k > 1$ $k$ $1$

Como se vê, existem outras maneiras de escolher o ideal . O método padrão da função R , por exemplo, sempre procura o máximo local do gráfico e seleciona o menor dentro de um erro padrão do máximo local. Usando esse método, selecionaríamos e para os gráficos 1 e 2 do OP, respectivamente. Como eu disse, no entanto, isso parece sofrer de um problema de complexidade. $k$ clusGap $k$ firstSEmax $k = 30$ $k = 19$

Fonte: Robert Tibshirani, Guenther Walther e Trevor Hastie (2001). Estimando o número de clusters em um conjunto de dados por meio da estatística de gap.

— jayelm
fonte

Ao estimar o valor de partir da estatística de gap, como posso calcular / estimar a probabilidade de que é o número real de clusters? Ou é minha pergunta sem sentido?

k

$k$

k

$k$

— quant_dev

Obrigado por apontar o trade-off entre a maximização da estatística lacuna e get parcimônia do modelo

— cloudscomputes