Embora as apostas sejam maiores do que no Projeto Euler, como você apontou, o Kaggle é uma excelente fonte de dados para uso em seus próprios experimentos. Muitos de seus concursos exigem que você faça login para acessar os conjuntos de dados (para acordos legais e assim por diante), mas se você não concluir uma entrada, não há penalidade que eu saiba.
Dito isto, se você procurar conjuntos de dados específicos para testar procedimentos estatísticos, como os de Princeton , poderá testar os dados em diferentes arquiteturas de rede e compará-los com a regressão simples etc. como referência.
Veja também aqui uma lista abrangente, que inclui todos os dados de processamento de idioma natural do Google .
Portanto, o Project Euler fornece um ótimo serviço com problemas específicos, mas no caso de aprendizado de máquina, você pode usar conjuntos de dados existentes com uma arquitetura de sua criação e comparar as "respostas" às conclusões apresentadas on-line ou em documentos de pesquisa.