Acabei de concluir o curso de aprendizado de máquina para R em cognitiveclass.ai e comecei a experimentar com florestas aleatórias.
Eu criei um modelo usando a biblioteca "randomForest" em R. O modelo é classificado por duas classes, boa e ruim.
Sei que quando um modelo está super ajustado, ele tem um bom desempenho nos dados de seu próprio conjunto de treinamentos, mas mal nos dados fora da amostra.
Para treinar e testar meu modelo, embaralhei e dividi o conjunto de dados completo em 70% para treinamento e 30% para teste.
Minha pergunta: estou obtendo uma precisão de 100% das previsões feitas no conjunto de testes. Isso é ruim? Parece bom demais para ser verdade.
O objetivo é o reconhecimento de formas de onda em quatro, dependendo das formas de onda. Os recursos do conjunto de dados são os resultados de custo da análise Dynamic Time Warping das formas de onda com sua forma de onda de destino.