Eu tenho um banco de dados do meu aplicativo do Facebook e estou tentando usar o aprendizado de máquina para estimar a idade dos usuários com base nos sites que eles gostam no Facebook.
Existem três características cruciais do meu banco de dados:
a distribuição etária no meu conjunto de treinamento (12k de usuários no total) é inclinada para usuários mais jovens (ou seja, eu tenho 1157 usuários com 27 anos e 23 usuários com 65 anos);
muitos sites não têm mais que 5 pessoas (filtramos os sites do FB com menos de 5 pessoas).
há muito mais recursos do que amostras.
Então, minhas perguntas são: que estratégia você sugeriria para preparar os dados para uma análise mais aprofundada? Devo executar algum tipo de redução de dimensionalidade? Qual método de ML seria mais apropriado usar neste caso?
Eu uso principalmente o Python, portanto, dicas específicas do Python serão muito apreciadas.