Eu tenho um conjunto de dados contendo no máximo 150 exemplos (divididos em treinamento e teste), com muitos recursos (acima de 1000). Preciso comparar classificadores e métodos de seleção de recursos com bom desempenho nos dados. Então, eu estou usando três métodos de classificação (J48, NB, SVM) e 2 métodos de seleção de recursos (CFS, WrapperSubset) com diferentes métodos de pesquisa (Greedy, BestFirst).
Ao comparar, estou analisando a precisão do treinamento (dobra cruzada 5 vezes) e a precisão do teste.
Aqui está um dos resultados do J48 e CFS-BestFirst:
{"precisionTraining": 95,83, "precisionTest": 98,21}
Muitos resultados são assim, e no SVM existem muitos resultados que indicam que a precisão do teste é muito maior que o treinamento (treinamento: 60%, teste: 98%)
Como posso interpretar significativamente esse tipo de resultado? Se fosse mais baixo, eu diria que é super adaptável. Há algo a ser dito sobre viés e variação neste caso, observando todos os resultados? O que posso fazer para tornar essa classificação significativa, como re-selecionar conjuntos de treinamento e teste ou apenas usar validação cruzada em todos os dados?
Tenho 73 treinamentos e 58 instâncias de teste. Algumas respostas não tinham essa informação quando foram publicadas.