Vou tentar responder da maneira mais simples. Cada um desses problemas tem sua própria origem principal:
Sobreajuste: Os dados são barulhentos, o que significa que existem alguns desvios da realidade (devido a erros de medição, fatores influentes aleatórios, variáveis não observadas e correlações de lixo) que dificultam a visualização de sua verdadeira relação com os fatores explicativos. Além disso, geralmente não está completo (não temos exemplos de tudo).
Como exemplo, digamos que estou tentando classificar meninos e meninas com base na sua altura, só porque essa é a única informação que tenho sobre eles. Todos sabemos que, embora os meninos sejam mais altos, em média, do que as meninas, existe uma enorme região de sobreposição, tornando impossível separá-los perfeitamente com esse pouco de informação. Dependendo da densidade dos dados, um modelo suficientemente complexo pode ser capaz de obter uma taxa de sucesso melhor nessa tarefa do que é teoricamente possível no treinamentoconjunto de dados porque ele pode traçar limites que permitem que alguns pontos sejam independentes. Portanto, se tivermos apenas uma pessoa com 2,04 metros de altura e ela for uma mulher, o modelo poderá desenhar um pequeno círculo em torno dessa área, o que significa que uma pessoa aleatória com 2,04 metros de altura provavelmente será uma mulher.
A razão subjacente para tudo isso é confiar demais nos dados de treinamento (e no exemplo, o modelo diz que, como não há homem com 2,04 de altura, isso só é possível para mulheres).
A falta de adequação é o problema oposto, no qual o modelo falha em reconhecer as complexidades reais em nossos dados (isto é, as mudanças não aleatórias em nossos dados). O modelo assume que o ruído é maior do que realmente é e, portanto, usa uma forma muito simplista. Portanto, se o conjunto de dados tiver muito mais meninas do que meninos por qualquer motivo, o modelo poderá classificá-las todas como meninas.
Nesse caso, o modelo não confiava em dados suficientes e apenas supunha que os desvios são todos ruídos (e, no exemplo, o modelo assume que os meninos simplesmente não existem).
Resumindo, enfrentamos esses problemas porque:
- Não temos informações completas.
- Não sabemos o quão barulhentos são os dados (não sabemos o quanto devemos confiar neles).
- Não conhecemos antecipadamente a função subjacente que gerou nossos dados e, portanto, a complexidade ideal do modelo.