Tenho algumas idéias para compartilhar sobre a redução de dimensão em problemas de aprendizado não supervisionado. Em resposta, presumi que o seu interesse é o "toque alto", o envolvimento humano por meio da interpretação de cluster, em oposição a uma abordagem de aprendizado de máquina automatizada, chave na mão, caixa preta e "toque discreto", na qual a interpretação é deliberadamente enfatizada . Se fosse o último, por que você faria a pergunta? Além disso, observe que tive muita experiência em executar soluções de cluster em uma ampla variedade de ambientes de negócios ao longo dos anos, incluindo marketing B2C estratégico, arenas de tecnologia B2B e política educacional (agrupamento de alunos e escolas).
Primeiro, porém, eu tenho uma pergunta sobre o seu comentário sobre "agrupar conjuntos de dados diferentes". Eu não sabia o que você quis dizer com isso ou como isso poderia impactar a abordagem e esperava que você pudesse elaborar.
Gostaria de contestar sua suposição no item 1 acima de que as soluções baseadas em PCAs são "difíceis de interpretar". As razões para a execução de um PCA como uma etapa preliminar do clustering têm a ver principalmente com a higiene da solução resultante, na medida em que muitos algoritmos de clustering são sensíveis à redundância de recursos. O PCA reduz essa redundância em um punhado gerenciável de componentes, minimizando os desafios e dificuldades observados em relação à seleção de recursos. Embora seja verdade que os componentes emitidos por um PCA ofusquem a granularidade e a especificidade dos recursos individuais, isso é um problema se você confiar apenasnesses componentes na análise dos resultados. Em outras palavras, você não está de forma alguma bloqueado no uso apenas dos componentes para interpretação de cluster. Além disso, você nem precisa se preocupar com o que as dimensões dos fatores "significam". Eles são apenas um meio intermediário e (em última análise) descartável para um fim, facilitando uma solução acionável. Mas, ao enfatizar esse ponto, sou diferente de muitos profissionais, já que as equipes podem, passam e passam semanas construindo cuidadosamente uma solução fatorial "significativa". Para mim, isso é um desperdício ineficiente de tempo e dinheiro do cliente.
Nesse ponto, haverá um monte de considerações técnicas a serem abordadas. Por um lado, se o seu algoritmo PCA não for invariável em escala (por exemplo, OLS vs ML), qualquer solução PCA resultante será distorcida, carregando mais fortemente nos recursos de alta variação. Nesses casos, seus recursos precisam ser pré-processados ou transformados de alguma forma para nivelar essa variação. Há um grande número de possibilidades aqui, incluindo padronização média, padronização de intervalo ou IQR, escala ipsativa e assim por diante. Aproveite essa transformação, oferecendo a melhor e mais interpretável solução.
Depois que uma solução de cluster é gerada, a interpretação é melhor motivada (na minha experiência) ignorando os componentes e retrocedendo nos recursos originais, juntamente com qualquer informação descritiva adicional que não seja usada diretamente na solução. Neste ponto, algumas heurísticas são os melhores guias para insights qualitativos. Isso pode ser tão fácil quanto gerar uma planilha que analisa seus clusters com base em médias ou medianas para cada recurso (as linhas da planilha), para cada cluster (as colunas) e uma coluna adicional que representa a média geral da amostra total . Em seguida, ao indexar as médias do cluster de cada recurso em relação à média geral (e multiplicar por 100), é criada uma heurística semelhante à pontuação de QI, na medida em que "100" é QI "normal" ou comportamento médio, índices acima de 120 sugerem altas probabilidades de um recurso ser "verdadeiro" sobre o comportamento de um cluster e índices de 80 ou menos são indicativos de recursos "não verdadeiros" de um cluster. Esses índices de mais de 120 e 80 ou menos são como testes t de proxy para a significância de um determinado recurso na condução da solução. Obviamente, você pode executar testes de significância em grupo e, dependendo do tamanho da amostra, obterá respostas que variam de acordo com essas regras práticas.
Ok ... depois de tudo isso, suponha que você ainda se oponha a usar o PCA como entrada direta em um algoritmo de clustering, o problema permanece em relação a como selecionar um conjunto reduzido de recursos. O PCA ainda pode ser útil aqui, pois os PCAs são como executar uma regressão sem uma variável dependente. Os principais recursos de carregamento de cada componente podem se tornar as entradas no algoritmo de cluster.
Para seu ponto de vista sobre o grande número de recursos e o tamanho da amostra relativamente pequeno de seus dados, a regra geral típica em muitas análises multivariadas de "informações completas" é no mínimo cerca de 10 observações por recurso. Existem alguns métodos especializados que podem ser aproveitados para contornar esse desafio. Por exemplo, os mínimos quadrados parciais (PLS) foram desenvolvidos pela primeira vez por Herman Wold em seu livro The Emetric Empiricism, de 1990, para uso em campos como a quimiometria que enfrentam esse problema preciso. É de natureza analítica a fatores, mas é muito menos rigoroso ao exigir um n grande para gerar as dimensões. Outras soluções incluem abordagens aleatórias de aprendizado de máquina, do tipo floresta, "dividir e conquistar", usadas com grandes quantidades de informação. Esses métodos são revisados neste pdfhttp://www.wisdom.weizmann.ac.il/~harel/papers/Divide%20and%20Conquer.pdf
Mas suponha que você tenha decidido que ainda não quer ter relação com a análise fatorial e que está decidido a executar algum tipo de processo de seleção "sequencial" supervisionado. Na minha opinião, a questão mais importante é menos sobre encontrar uma métrica de desempenho post-hoc (Índice Dunn) e mais sobre a identificação de um proxy adequado - uma variável dependente - para tornar essa abordagem possível. Esta decisão é inteiramente uma função do seu julgamento e do status de PME em seus dados. Não existem "práticas recomendadas", respostas muito menos fáceis para isso e, como você descreveu seus dados, não é um pequeno desafio.
Depois que a decisão é tomada, existem literalmente centenas de possíveis soluções de seleção de variáveis para você escolher. Seleção variável é uma área de tópico na qual todo estatístico e seu irmão publicaram um artigo. Sua abordagem preferida parece ser a "seleção sequencial direta".
Vale ressaltar que existem modelos de aprendizado supervisionado que se dobram em uma solução de cluster como parte do algoritmo. Exemplos disso incluem as abordagens grandes e altamente flexíveis conhecidas como modelos de classe latente. A essência dos modelos de LC é que eles são de dois estágios: no estágio um, um DV é definido e um modelo de regressão é construído. No segundo estágio, qualquer heterogeneidade na saída residual do modelo - um único vetor latente - é particionada em "classes" latentes. Há uma visão geral da modelagem de LC nesta discussão de currículo aqui ... dúvida do modelo de logit multinomial de classe latente
Espero que isto ajude.