Eu tenho um conjunto de dados de variáveis discretas (ordinais, merísticas e nominais) que descrevem caracteres morfológicos das asas em várias espécies de insetos intimamente relacionadas. O que pretendo fazer é realizar algum tipo de análise que me dê uma representação visual da semelhança das diferentes espécies com base nas características morfológicas. A primeira coisa que me veio à cabeça foi o PCA (esse é o tipo de visualização que estou procurando criar), mas depois de analisá-lo (particularmente outras questões como: A análise de componentes principais pode ser aplicada a conjuntos de dados que contêm uma mistura contínua de e variáveis categóricas?), parece que o PCA pode ser inadequado para dados discretos (o PCA é usado nesses tipos de estudos na literatura, mas sempre com dados contínuos). Ignorando os antecedentes estatísticos de por que esses dados são inadequados, o PCA me fornece resultados relativamente perfeitos com relação à minha pergunta biológica (grupos de interesse híbridos ficam bem no meio de seus grupos paternos).
Também tentei a análise de correspondência múltipla para apaziguar as estatísticas (pelo menos no que diz respeito a minha compreensão), mas não consigo obter um gráfico análogo ao que obteria com o PCA, onde minhas observações (indivíduos biológicos) são separados digamos por cor para mostrar os diferentes agrupamentos (espécies diferentes, biologicamente falando). Parece que esta análise visa descrever como as variáveis (aqui, minhas características morfológicas) estão relacionadas entre si, e não as observações individuais. E quando planto observações coloridas por grupo, recebo apenas um único valor (talvez uma média) descrevendo todo o conjunto de indivíduos. Eu fiz a análise em R, então talvez eu também não seja tão habilidoso quanto R para fazer minha idéia do enredo funcionar.
Estou correto ao tentar esse tipo de análise com meus dados ou estou fora de controle? Se você não sabia, minha experiência em estatística é limitada, de modo que as equações que acontecem sob essas análises estão por toda parte. Estou tentando conduzir essa análise de forma completamente descritiva (não preciso fazer mais processamento de números a jusante) e li que, se for esse o caso, o PCA será suficiente, mas quero ter certeza de que não estou violando muitas suposições estatísticas.