A aplicação do EDA nos dados de teste está incorreta.
Treinamento é o processo de procurar as respostas corretas para criar o melhor modelo. Esse processo não se limita apenas à execução de código nos dados de treinamento. O uso de informações da EDA para decidir qual modelo usar, ajustar parâmetros e assim por diante faz parte do processo de treinamento e, portanto, não deve ser permitido o acesso aos dados de teste. Para ser fiel a si mesmo, use os dados de teste apenas para verificar o desempenho do seu modelo.
Além disso, se você perceber que o modelo não apresenta um bom desempenho durante o teste e voltar a ajustar o modelo, isso também não será bom. Em vez disso, divida seus dados de treinamento em dois. Use um para treinamento e outro para testar e ajustar seus modelos. Consulte Qual é a diferença entre o conjunto de testes e o conjunto de validação?