Existe uma precisão de modelo de 100% no ajuste excessivo de dados fora da amostra?

Acabei de concluir o curso de aprendizado de máquina para R em cognitiveclass.ai e comecei a experimentar com florestas aleatórias.

Eu criei um modelo usando a biblioteca "randomForest" em R. O modelo é classificado por duas classes, boa e ruim.

Sei que quando um modelo está super ajustado, ele tem um bom desempenho nos dados de seu próprio conjunto de treinamentos, mas mal nos dados fora da amostra.

Para treinar e testar meu modelo, embaralhei e dividi o conjunto de dados completo em 70% para treinamento e 30% para teste.

Minha pergunta: estou obtendo uma precisão de 100% das previsões feitas no conjunto de testes. Isso é ruim? Parece bom demais para ser verdade.

O objetivo é o reconhecimento de formas de onda em quatro, dependendo das formas de onda. Os recursos do conjunto de dados são os resultados de custo da análise Dynamic Time Warping das formas de onda com sua forma de onda de destino.

r random-forest prediction overfitting

— Milan van Dijck
fonte

bem vindo ao site! Você tentou prever alguns dados de ruído?

— precisa saber é o seguinte

Toda vez que você embaralha, treina e testa, a precisão é 100%?

— 8288 Alex

@Alex Não exatamente, mas permanece muito alto como 98,55%

— Milan van Dijck 8/18

@Alex 11,35% "ok" e 88,65% "ruim"

— Milan van Dijck

Isso é bastante desequilibrado. Tente usar a reamostragem (amostragem repetida) para inclinar a balança no conjunto de treinamento para a classe OK (faça 30%, por exemplo) e mantenha a proporção 11/89 nos conjuntos de teste / validação. O que você ganha?

— 8288 Alex

Respostas:

Altas pontuações de validação, como precisão, geralmente significam que você não está ajustando demais, no entanto, isso deve levar a cautela e pode indicar que algo deu errado. Também pode significar que o problema não é muito difícil e que seu modelo realmente tem um bom desempenho. Duas coisas que podem dar errado:

Você não dividiu os dados corretamente e os dados de validação também ocorreram nos dados de treinamento, o que significa que indica super ajuste, porque você não está mais medindo a generalização
Você usa alguma engenharia de recursos para criar recursos adicionais e pode ter introduzido algum vazamento de destino, em que suas linhas estão usando informações de seu destino atual, não apenas de outras pessoas em seu conjunto de treinamento

— Jan van der Vegt
fonte

100% de precisão sempre grita "vazamento de alvo".

— Paul

Investigue para ver quais são seus recursos mais preditivos. Às vezes, você acidentalmente incluiu seu alvo (ou algo equivalente ao seu alvo) entre seus recursos.

— tom
fonte