Primeiro, recomendo começar com os dados de amostra fornecidos com o software. A maioria das distribuições de software inclui dados de exemplo que você pode usar para se familiarizar com o algoritmo sem lidar com tipos de dados e digitar os dados no formato correto para o algoritmo. Mesmo se você estiver criando um algoritmo do zero, poderá começar com a amostra de uma implementação semelhante e comparar o desempenho.
Segundo, eu recomendo experimentar conjuntos de dados sintéticos para ter uma ideia de como o algoritmo funciona quando você sabe como os dados foram gerados e a relação sinal / ruído.
No R, você pode listar todos os conjuntos de dados nos pacotes atualmente instalados com este comando:
data(package = installed.packages()[, 1])
O pacote R mlbench possui conjuntos de dados reais e pode gerar conjuntos de dados sintéticos úteis para estudar o desempenho do algoritmo.
O scikit-learn do Python possui dados de amostra e gera um conjunto de dados sintético / de brinquedo também.
O SAS possui um conjunto de dados de treinamento disponível para download e os dados de amostra do SPSS são instalados com o software em C: \ Arquivos de Programas \ IBM \ SPSS \ Statistics \ 22 \ Samples
Por fim, eu olhava dados em estado selvagem. Eu compararia o desempenho de diferentes algoritmos e parâmetros de ajuste em conjuntos de dados reais. Isso geralmente requer muito mais trabalho, porque você raramente encontrará conjuntos de dados com tipos e estruturas de dados que podem ser inseridos diretamente em seus algoritmos.
Para dados em estado selvagem, recomendo:
Arquivo de conjuntos de dados do reddit
Lista do KDnugget