Respostas:
Não, não é um exemplo de sobreajuste! Seria uma adaptação excessiva se a perda válida começasse a aumentar enquanto a perda de treinamento continuasse a diminuir.
Edit: a resposta para a segunda pergunta Vale a pena considerar como auc é calculado. Temos as probabilidades de cada instância pertencer à classe positiva. Depois, classificamos essas probabilidades. Se todas as instâncias positivas aparecerem na primeira parte da lista classificada e todas as negativas estiverem na segunda, auc será 1 (o "desempenho perfeito" de acordo com a observação da auc).
Agora vamos considerar o cálculo da perda. Por exemplo entropia cruzada binária. A fórmula é Onde - etiqueta verdadeira, - probabilidade de que pertence à classe positiva. Podemos prever, para cada observação negativa, que a probabilidade é de 0,998, e a perda será enorme. Mas se as probabilidades previstas para observações positivas forem de 0,999 (mais altas que para negativas), então, em termos de AUC, teremos um desempenho perfeito.
É por isso que acho que temos que avaliar as perdas.
Que tal este? Nesse caso, a perda de validação está aumentando, mas a AUC não segue o mesmo padrão, em qual acreditar perda ou desempenho?