Então, eu sou um novato no campo ML e tento fazer alguma classificação. Meu objetivo é prever o resultado de um evento esportivo. Reuni alguns dados históricos e agora tente treinar um classificador. Eu obtive cerca de 1200 amostras, 0,2 delas foram separadas para fins de teste, outras colocadas na pesquisa de grade (validação cruzada incluída) com diferentes classificadores. Eu tentei SVM com kernels lineares, rbf e polinominais e florestas aleatórias até o momento. Infelizmente, não consigo obter precisão significativamente maior que 0,5 (o mesmo que escolha aleatória de classe). Isso significa que simplesmente não posso prever o resultado de um evento tão complexo? Ou posso obter pelo menos 0,7-0,8 de precisão? Se for possível, o que devo procurar em seguida?
- Obter mais dados? (Eu posso aumentar o conjunto de dados até 5 vezes)
- Tente classificadores diferentes? (Regressão logística, kNN, etc)
- Reavaliar meu conjunto de recursos? Existem ferramentas de ML para analisar, quais recursos fazem sentido e quais não? Talvez eu deva reduzir meu conjunto de recursos (atualmente tenho 12 recursos)?