Sobreajuste, em poucas palavras, significa levar em consideração muitas informações de seus dados e / ou conhecimento prévio e usá-las em um modelo. Para torná-lo mais direto, considere o seguinte exemplo: você é contratado por alguns cientistas para fornecer um modelo para prever o crescimento de algum tipo de planta. Os cientistas forneceram informações coletadas de seu trabalho com essas plantas durante um ano inteiro e fornecerão continuamente informações sobre o desenvolvimento futuro de suas plantações.
Então, você percorre os dados recebidos e constrói um modelo a partir dele. Agora, suponha que, em seu modelo, você tenha considerado o máximo de características possível para sempre descobrir o comportamento exato das plantas que viu no conjunto de dados inicial. Agora, à medida que a produção continua, você sempre levará em consideração essas características e produzirá resultados muito detalhados . No entanto, se a plantação sofrer alguma mudança sazonal, os resultados que você receberá poderão se encaixar no seu modelo de forma que suas previsões comecem a falhar (dizendo que o crescimento desacelerará, enquanto na verdade acelerará, ou o oposto).
Além de não conseguir detectar variações tão pequenas, e geralmente classificar suas entradas incorretamente, a granulação fina no modelo, ou seja, a grande quantidade de variáveis, pode fazer com que o processamento seja muito caro. Agora, imagine que seus dados já são complexos. Ajustar demais o modelo aos dados não apenas tornará a classificação / avaliação muito complexa, mas provavelmente fará com que você confunda a previsão com a menor variação que possa ter na entrada.
Edit : Isso também pode ser útil, talvez adicionando dinamicidade à explicação acima: D