Você já sabe a qual cluster cada pessoa pertence, portanto, é necessário executar um algoritmo de cluster que faça essa previsão para você. Sua pergunta é sobre exploração de dados: você está tentando entender seus dados. Seu problema real é um problema de classificação supervisionada (multi-classe) e os algoritmos de cluster não são adequados para isso, porque não são supervisionados.
Eu recomendaria fazer duas coisas: primeiro, reduza a dimensionalidade para poder visualizar. Segundo, calcule as métricas no conjunto de dados de alta dimensão original para obter mais entendimento.
Para visualizar os dados, recomendo usar o t-SNE para visualizar em duas dimensões e cores com o grupo étnico . Isso lhe dará uma idéia se seus dados formarem clusters no espaço 10k-dimensional.
Então, se você deseja melhorar ainda mais seu sentimento ou intuição sobre seus dados, pensando em termos de clusters no espaço de 10k dimensional, é possível calcular métricas de cluster, como a pontuação Silhouette , a compactação do cluster (distância média ao centro) ou exiba a distância entre os clusters em um mapa de calor . Você pode mesclar dois clusters atribuindo a eles o mesmo rótulo e ver como seus resultados são alterados.
Não posso prever os resultados que você pode obter, por isso pode ser muito esclarecedor, o que significa que você pode dizer que certos clusters são muito compactos, outros muito extensos, alguns são muito parecidos com outros e assim por diante. Mas talvez, usando os métodos acima, você não consiga entender seus dados. Se isso acontecer, diria que é hora de parar de pensar nos seus dados como pontos no "espaço genético", com diferenças entre as pessoas indicando uma "distância" etc. etc. Nesse caso, pode ser que o mapeamento de genes para etnia o agrupamento é mais complexo (não linear) do que um agrupamento espacial, portanto, é necessário usar um algoritmo de classificação capaz de codificar essa não linearidade.
O aprendizado profundo não tem muitos pré-requisitos, mas um deles é que ele só pode codificar funções contínuas. As redes neurais também exigem recursos de entrada numéricos e com valor real. Como seu problema possui dados binários e não há razão para pensar que o mapeamento de genes para etnias seja uma função suave, talvez algoritmos baseados em árvores de decisão sejam um bom ponto de partida.
Boa sorte! :-)