Solução encontrada:
Portanto, para reafirmar a pergunta, por que a Mclust
função padroniza o modelo com o maior valor de BIC como o modelo "melhor"?
Ótima pergunta! Deixe-me dar uma resposta prolongada a isso.
Os valores TL; DR : BIC são uma aproximação à probabilidade integrada (não máxima) e você deseja o modelo com a maior probabilidade integrada (fator Bayes), para escolher o modelo com a maior BIC.
Resposta longa : O objetivo de usar o cluster baseado em modelo sobre abordagens de cluster baseado em heurística, como k-means e cluster hierárquico (aglomerativo), é fornecer uma abordagem mais formal e intuitiva para comparar e selecionar um modelo de cluster apropriado para seus dados.
O Mclust utiliza técnicas de agrupamento baseadas em modelos de probabilidade, modelos mistos gaussianos. O uso de modelos de probabilidade permite o desenvolvimento de abordagens baseadas em modelo para comparar diferentes modelos e tamanhos de cluster. Consulte * Métodos de classificação baseados em modelo: usando o software mclust em quimiometria * ( https://www.jstatsoft.org/article/view/v018i06 ) para obter mais detalhes.
Como mencionado acima, os autores afirmam que o "melhor" modelo é aquele com os maiores valores de BIC. Aqui está outro exemplo do software de cluster avançado baseado em modelo, estimativa de densidade e análise discriminante: MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):
O Critério de Informação da Baysia ou BIC (?) É o valor da probabilidade de log maximizada com uma penalidade no número de parâmetros no modelo e permite a comparação de modelos com parametrizações diferentes e / ou números diferentes de clusters. Em geral, quanto maior o valor do BIC, mais fortes são as evidências para o modelo e o número de clusters (ver, por exemplo, Fraley e Raftery 2002a).
Seleção de modelo : agora que existe um modelo de probabilidade anexado aos clusters, é possível usar ferramentas mais sofisticadas para comparar vários modelos de cluster usando a seleção de modelo bayesiano via fatores Bayes.
Em seu artigo, Quantos Clusters? Qual método de cluster? Respostas por meio de análise de cluster baseada em modelo ( http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf )
O fator Bayes é a probabilidade posterior de um modelo contra o outro, assumindo que nenhum é favorecido a priori. Banfield e Raftery [2] usaram uma aproximação derivada heuristicamente de duas vezes o fator log Bayes, chamado de 'AWE', para determinar o número de clusters em cluster hierárquico com base na probabilidade de classificação. Quando o EM é usado para encontrar a probabilidade máxima de mistura, é aplicável uma aproximação mais confiável para o dobro do fator log Bayes chamado BIC (Schwarz [32]):
2 log( p ( x | M) ) + C o n s t a n t ≈ 2 lM( x , θ^) - mml o g( n ) ≡ B IC
p ( x | M)euM( x , θ^)a p r i o r i p ( x | M)M
Portanto, em resumo, o BIC não deve ser minimizado. A pessoa que usa essa abordagem de cluster baseado em modelo deve procurar o modelo que maximiza o BIC à medida que se aproxima do fator Bayes com a máxima probabilidade integrada.
Essa última declaração também tem uma referência:
Banfield, JD e Raftery, AE (1993) Cluster gaussiano e não gaussiano baseado em modelo. Biometrics, 49, 803-821.
EDIT : com base em uma troca de e-mail,
Como observação, sempre verifique como o BIC está definido. Às vezes, por exemplo, na maioria dos contextos de regressão (onde tradicionalmente uma estatística é minimizada para a estimativa de parâmetros, por exemplo, soma residual dos quadrados, desvio, etc), o BIC é calculado como -2 * loglik + npar * log (n), ou seja, o inverso de o que é usado no mclust. Claramente, nesse caso, o BIC deve ser minimizado.
B IC= - 2 × l n ( L ( θ | x ) ) + k × l n ( n )