Como o @David Masip mencionou, a Análise de Componentes Principais seria um bom método para usar aqui. Essencialmente, o PCA é um método pelo qual um mapeamento é encontrado entre um espaço dimensional alto e um espaço dimensional menor, mantendo o máximo de variação possível nos dados - perfeito para a redução da dimensionalidade dos dados de alta dimensão.
No entanto, você menciona que deseja usar esses dados reduzidos para treinar um modelo de rede neural. Talvez seja melhor treinar primeiro o modelo da rede neural e ver como ele funciona, pois as redes neurais geralmente são muito boas para identificar interações entre recursos e outras estruturas ocultas nos dados. Se não funcionar bem, uma abordagem para melhorar o desempenho pode ser o uso do PCA - embora isso seja altamente dependente do seu caso de uso, conteúdo / tipo / quantidade de dados, arquitetura de rede neural etc.
O ps PCA também é bom para visualizar dados de alta dimensão (reduza a dimensionalidade para 2 ou 3 dimensões e plote-a. Isso é melhor do que plotar apenas 2 recursos por vez, como você fez acima).