Eu acho que valeria a pena tentar a Random Forests ( randomForest ); algumas referências foram fornecidas em resposta a perguntas relacionadas: Seleção de recursos para o modelo "final" ao executar a validação cruzada no aprendizado de máquina ; Os modelos CART podem ser robustos? . O reforço / ensacamento os torna mais estáveis do que um único CART que é conhecido por ser muito sensível a pequenas perturbações. Alguns autores argumentaram que o desempenho foi tão bom quanto o SVM ou o Gradient Boosting Machines (veja, por exemplo, Cutler et al., 2009). Eu acho que eles certamente superam os NNs.
Boulesteix e Strobl fornecem uma boa visão geral de vários classificadores na seleção ideal de classificadores e viés negativo na estimativa da taxa de erro: um estudo empírico sobre previsão de alta dimensão (BMC MRM 2009 9: 85). Ouvi falar de outro bom estudo na IV reunião do EAM , que deve estar sendo analisada em Statistics in Medicine ,
João Maroco , Dina Silva, Manuela Guerreiro, Alexandre de Mendonça. As florestas aleatórias superam as redes neurais, suportam máquinas de vetores e classificadores de análise discriminante? Estudo de caso na evolução para demência em idosos com queixa cognitiva
Também gosto do pacote de sinal de intercalação : está bem documentado e permite comparar a precisão preditiva de diferentes classificadores no mesmo conjunto de dados. Ele cuida do gerenciamento de amostras de treinamento / teste, precisão de computação etc. em poucas funções fáceis de usar.
O pacote glmnet , de Friedman e col., Implementa o GLM penalizado (consulte a revisão no Journal of Statistical Software ), para que você permaneça em uma estrutura de modelagem conhecida.
Caso contrário, você também pode procurar por classificadores baseados em regras de associação (consulte a Exibição de tarefas do CRAN no Machine Learning ou os 10 principais algoritmos na mineração de dados para obter uma introdução suave a alguns deles).
Gostaria de mencionar outra abordagem interessante que pretendo reimplementar no R (na verdade, é o código Matlab), que é a Análise de Correspondência Discriminante de Hervé Abdi. Embora inicialmente desenvolvido para lidar com estudos de pequenas amostras com muitas variáveis explicativas (eventualmente agrupadas em blocos coerentes), parece combinar eficientemente a DA clássica com técnicas de redução de dados.
Referências
- Cutler, A., Cutler, DR, e Stevens, JR (2009). Tree-Based Methods , in High-Dimensional Data Analysis in Cancer Research , Li, X. e Xu, R. (eds.), Pp. 83-101, Springer.
- Saeys, Y., Inza, I. e Larrañaga, P. (2007). Uma revisão das técnicas de seleção de recursos em bioinformática . Bioinformatics, 23 (19): 2507-2517.