Na minha opinião, isso é subjetivo e específico do problema. Você deve usar o que for o fator mais importante em sua mente como a métrica de condução, pois isso pode tomar suas decisões sobre como alterar o modelo mais focado.
A maioria das métricas calculadas será correlacionada / similar de várias maneiras: por exemplo, se você usar o MSE para sua perda, gravando MAPE (erro médio percentual médio) ou perda simples , elas fornecerão curvas de perda comparáveis.eu1 1
Por exemplo, se você reportar uma pontuação de F1 no seu relatório / para seu chefe etc. (e supondo que é com isso que eles realmente se importam), usar essa métrica pode fazer mais sentido. O escore F1, por exemplo, leva em conta a precisão e o recall , ou seja, descreve a relação entre duas métricas mais refinadas .
Reunindo essas coisas, calcular pontuações diferentes da perda normal pode ser bom para a visão geral e para ver como sua métrica final é otimizada ao longo das iterações de treinamento. Esse relacionamento talvez possa lhe dar uma visão mais profunda do problema,
Geralmente, é melhor tentar várias opções, no entanto, a otimização para a perda de validação pode permitir a execução do treinamento por mais tempo, o que eventualmente também pode produzir uma pontuação F1 superior . Precisão e recall podem influenciar alguns mínimos locais, produzindo uma pontuação F1 quase estática - para que você pare de treinar. Se você estivesse otimizando para a perda pura, pode ter registrado flutuação suficiente na perda para permitir que você treine por mais tempo.
cross_entropyperda é um candidato mais preferível queMSEouMAE. Confira a seção Wrap-Up deste artigo e esta postagem sobre estatísticas .