Isso dependerá de como seus conjuntos de treinamento e teste são compostos.
Se o conjunto de testes for grande e refletir a diversidade de dados do "caso de aplicação" corretamente, eu não argumentaria assim. Mas se os dados do teste forem bastante pequenos, é claro que você poderá obter resultados bons ou ruins por acaso. O uso de mais dados de teste seria útil nesses casos (ou o uso de uma porção maior do total de dados disponíveis - se possível).
Além disso, os resultados do treinamento devem ser obtidos usando algum particionamento interno (por exemplo, validação cruzada repetida), que testa os dados que o modelo não tinha visto antes. O desempenho e o desempenho espalhados por esses resultados mostram como o modelo costuma ser executado e qual a probabilidade de obter apenas resultados melhores ou piores. Usando esse procedimento, eu não consideraria resultados de teste melhores do que os resultados do seu currículo como realistas. Você provavelmente também deve examinar e comparar o desempenho do CV e o spread de desempenho dos dois modelos.
E: lembre-se de que, se seus dados de treinamento forem pequenos em comparação aos dados de teste, os resultados do treinamento ainda poderão ser notavelmente melhores que os resultados dos testes e os casos reais de casos de aplicação.