Seleção do modelo Mclust

O pacote R mclustusa o BIC como critério para a seleção do modelo de cluster. Pelo meu entendimento, um modelo com o menor BIC deve ser selecionado em relação a outros modelos (se você se importa apenas com o BIC). No entanto, quando os valores do BIC são todos negativos, a Mclustfunção é padronizada no modelo com o valor mais alto do BIC. Meu entendimento geral de várias tentativas é que mclustidentifica os "melhores" modelos como aqueles que possuem o . $max\{BIC_i\}$

Estou tentando entender por que os autores tomaram essa decisão. Está ilustrado no site do CRAN: https://cran.r-project.org/web/packages/mclust/vignettes/mclust.html

Além disso, os autores dos mclustpacotes anotam isso em seu artigo Métodos de classificação baseados em modelo: Usando o software mclust em quimiometria na página 5.

O modelo “melhor” é considerado aquele com o maior BIC entre os modelos instalados.

Alguém pode esclarecer essa questão? Se um BIC mais baixo é sempre melhor, por que os autores não escolhem o modelo com o BIC mais baixo, mas o modelo com o menor BIC absoluto? Se possível, forneça referências.

— Jon
fonte

Solução encontrada:

Portanto, para reafirmar a pergunta, por que a Mclustfunção padroniza o modelo com o maior valor de BIC como o modelo "melhor"?

Ótima pergunta! Deixe-me dar uma resposta prolongada a isso.

Os valores TL; DR : BIC são uma aproximação à probabilidade integrada (não máxima) e você deseja o modelo com a maior probabilidade integrada (fator Bayes), para escolher o modelo com a maior BIC.

Resposta longa : O objetivo de usar o cluster baseado em modelo sobre abordagens de cluster baseado em heurística, como k-means e cluster hierárquico (aglomerativo), é fornecer uma abordagem mais formal e intuitiva para comparar e selecionar um modelo de cluster apropriado para seus dados.

O Mclust utiliza técnicas de agrupamento baseadas em modelos de probabilidade, modelos mistos gaussianos. O uso de modelos de probabilidade permite o desenvolvimento de abordagens baseadas em modelo para comparar diferentes modelos e tamanhos de cluster. Consulte * Métodos de classificação baseados em modelo: usando o software mclust em quimiometria * ( https://www.jstatsoft.org/article/view/v018i06 ) para obter mais detalhes.

Como mencionado acima, os autores afirmam que o "melhor" modelo é aquele com os maiores valores de BIC. Aqui está outro exemplo do software de cluster avançado baseado em modelo, estimativa de densidade e análise discriminante: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):

O Critério de Informação da Baysia ou BIC (?) É o valor da probabilidade de log maximizada com uma penalidade no número de parâmetros no modelo e permite a comparação de modelos com parametrizações diferentes e / ou números diferentes de clusters. Em geral, quanto maior o valor do BIC, mais fortes são as evidências para o modelo e o número de clusters (ver, por exemplo, Fraley e Raftery 2002a).

Seleção de modelo : agora que existe um modelo de probabilidade anexado aos clusters, é possível usar ferramentas mais sofisticadas para comparar vários modelos de cluster usando a seleção de modelo bayesiano via fatores Bayes.

Em seu artigo, Quantos Clusters? Qual método de cluster? Respostas por meio de análise de cluster baseada em modelo ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )

O fator Bayes é a probabilidade posterior de um modelo contra o outro, assumindo que nenhum é favorecido a priori. Banfield e Raftery [2] usaram uma aproximação derivada heuristicamente de duas vezes o fator log Bayes, chamado de 'AWE', para determinar o número de clusters em cluster hierárquico com base na probabilidade de classificação. Quando o EM é usado para encontrar a probabilidade máxima de mistura, é aplicável uma aproximação mais confiável para o dobro do fator log Bayes chamado BIC (Schwarz [32]):

$2 \log(p(x | M)) + constant \approx 2 l_M (x, \hat{\theta}) - m_m log(n) \equiv BIC$

$p(x |M)$ $l_M(x, \hat{\theta})$ $a \ priori$ $p(x|M)$ $M$

Portanto, em resumo, o BIC não deve ser minimizado. A pessoa que usa essa abordagem de cluster baseado em modelo deve procurar o modelo que maximiza o BIC à medida que se aproxima do fator Bayes com a máxima probabilidade integrada.

Essa última declaração também tem uma referência:

Banfield, JD e Raftery, AE (1993) Cluster gaussiano e não gaussiano baseado em modelo. Biometrics, 49, 803-821.

EDIT : com base em uma troca de e-mail,

Como observação, sempre verifique como o BIC está definido. Às vezes, por exemplo, na maioria dos contextos de regressão (onde tradicionalmente uma estatística é minimizada para a estimativa de parâmetros, por exemplo, soma residual dos quadrados, desvio, etc), o BIC é calculado como -2 * loglik + npar * log (n), ou seja, o inverso de o que é usado no mclust. Claramente, nesse caso, o BIC deve ser minimizado.

$BIC = -2 \times ln(L(\theta | x)) + k \times ln(n)$

— Jon
fonte

Não tenho certeza de qual versão do Mclust a correspondência de email desta resposta estava relacionada. A versão 4 do Mclust usa o componente negativo do BIC e, portanto, deve ser maximizada. Espero que possa ser útil para as pessoas que tentam descobrir se uma maximização ou minimização deve ser feita.

— Rasika

Obrigado por apontar isso, vou atualizar esta pergunta para que faça sentido. Eu poderia olhar para a documentação, assim como para ver se há por que eles decidiram fazer essa alteração depois de tantos anos

— Jon