Eu gosto de modelos de mistura gaussiana (GMM).
Uma de suas características é que, no domínio probit , eles agem como interpoladores por partes. Uma implicação disso é que eles podem agir como uma base de substituição, um aproximador universal. Isso significa que, para distribuições não gaussianas, como lognormal, weibull ou mais louca não analítica, desde que alguns critérios sejam atendidos - o GMM pode aproximar a distribuição.
Portanto, se você conhece os parâmetros da aproximação ideal do AICc ou do BIC usando o GMM, pode projetá-lo para dimensões menores. Você pode girá-lo e observar os principais eixos dos componentes do GMM que se aproxima.
A conseqüência seria uma maneira informativa e visualmente acessível de examinar as partes mais importantes dos dados de dimensões mais altas usando nossa percepção visual de visualização em 3D.
EDIT: (coisa certa, whuber)
Existem várias maneiras de observar a forma.
- Você pode olhar para as tendências nos meios. Um lognormal é aproximado por uma série de gaussianos cujo meio se aproxima progressivamente e cujos pesos diminuem ao longo da progressão. A soma aproxima a cauda mais pesada. Nas dimensões n, uma sequência desses componentes formaria um lóbulo. Você também pode rastrear distâncias entre médias (converter em alta dimensão) e cossenos de direção. Isso seria convertido em dimensões muito mais acessíveis.
- Você pode criar um sistema 3d cujos eixos são o peso, a magnitude da média e a magnitude da variância / covariância. Se você tiver uma contagem de clusters muito alta, essa é uma maneira de visualizá-los em comparação. É uma maneira valiosa de converter 50 mil peças com 2 mil medidas cada uma em algumas nuvens em um espaço 3D. Eu posso executar o controle do processo nesse espaço, se eu escolher. Eu gosto da recursão do uso do controle baseado no modelo de mistura gaussiana nos componentes do modelo de mistura gaussiana se encaixa nos parâmetros das peças.
- Em termos de desorganização, você pode jogar fora por peso muito pequeno, ou por peso por covariância ou algo assim.
- R2
- Você poderia olhar como bolhas se cruzando . A localização de probabilidade igual (divergência zero de Kullback-Leibler) existe entre cada par de clusters GMM. Se você rastrear essa posição, poderá filtrar por probabilidade de associação nesse local. Isso fornecerá pontos de limites de classificação. Isso irá ajudá-lo a isolar "solitários". Você pode contar o número desses limites acima do limite por membro e obter uma lista de "conectividade" por componente. Você também pode observar ângulos e distâncias entre os locais.
- Você pode reamostrar o espaço usando números aleatórios, conforme os PDFs Gaussianos, e depois executar a análise dos componentes principais, além de observar as formas e os valores próprios associados a eles.
EDITAR:
O que significa shape? Dizem que a especificidade é a alma de toda boa comunicação.
O que você quer dizer com "medida"?
Ideias sobre o que isso pode significar:
- Sentido da norma do globo ocular / sensação de forma geral. (acessibilidade visual extremamente qualitativa)
- medida da forma de GD&T (coplanaridade, concentricidade etc.) (extremamente quantitativa)
- algo numérico (valores próprios, covariâncias, etc ...)
- uma coordenada de dimensão reduzida útil (como parâmetros do GMM se tornando dimensões)
- um sistema de ruído reduzido (suavizado de alguma forma e depois apresentado)
A maioria das "várias maneiras" são algumas variações.