Esta publicação no KDnuggets citando a publicação de John Langford afirma que a entropia e as informações mútuas quando usadas como medidas de erro podem levar ao sobreajuste. Você poderia entrar em mais detalhes sobre isso?
Esta publicação no KDnuggets citando a publicação de John Langford afirma que a entropia e as informações mútuas quando usadas como medidas de erro podem levar ao sobreajuste. Você poderia entrar em mais detalhes sobre isso?
Respostas:
Qualquer medida de erro que não penalize a complexidade do sistema pode levar a sobreajuste, por exemplo, entropia.
Em geral, quando você ajusta seus dados de treinamento a um modelo que deseja generalizar bem a novos dados, essa etapa de treinamento é realizada minimizando alguma medida de erro que depende, entre muitas coisas, de seus parâmetros (um vetor que inclui todos os parâmetros do seu modelo que serão ajustados durante o treinamento).
Se sua medida de erro se preocupa apenas em ajustar melhor e melhor seus dados de treinamento, você pode achar que a construção de modelos com um grande número de parâmetros (que podem ter algum valor adicional) é boa porque seu modelo é tão flexível que seus dados de treinamento podem ser perfeitamente aprendeu. Por outro lado, se seus dados de treinamento forem barulhentos (o que geralmente é o caso), você também fará com que seu modelo caiba ruído, e é disso que se trata o excesso de ajuste.
Existem técnicas para evitar isso, que são chamadas de técnicas de "regularização", sendo as mais comuns as que adicionam um termo de regularização à função de erro, de modo que agora onde é um erro que mede quão bom é o seu ajuste (por exemplo, entropia) e uma penalização para modelos complexos (maior para modelos com muitos parâmetros ou grandes valores de parâmetros).