Onde posso encontrar conjuntos de dados úteis para testar minhas próprias implementações de Machine Learning? [fechadas]

Atualmente, estou tentando implementar alguns algoritmos de aprendizado de máquina por conta própria. Muitos deles têm a propriedade desagradável de serem difíceis de depurar, alguns bugs não causam falha no programa, mas funcionam como não pretendido e parecem que os algoritmos apenas fornecem resultados mais fracos.

Eu gostaria de ter alguma maneira de aumentar minha confiança na implementação, por exemplo, se eu tivesse alguns conjuntos de dados pequenos, com informações adicionais "Algoritmos X funcionaram para iterações Y e tiveram resultados Z nesse conjunto de dados", isso seria realmente útil. Alguém já ouviu falar desses conjuntos de dados?

dataset

— sjm.majewski
fonte

Que pesquisa você fez ao investigar esta questão? À primeira vista, alguém poderia pensar que a literatura que você está usando para encontrar esses algoritmos estaria repleta de conjuntos de dados de amostra.

— whuber

Bem, eu conheço ML principalmente do curso universitário, Coursea, vídeos de palestras na internet e alguns artigos que li sobre tópicos específicos. Sei que há muitos conjuntos de dados de amostra em todos os lugares, mas estou procurando alguns com informações sobre como os diferentes algoritmos de ML foram executados neles, para que eu possa validar minhas próprias implementações.

— Sjm.majewski

Recentemente, houve um bom artigo na ICML sobre o problema com conjuntos de dados padronizados - que impede que você pense demais sobre os problemas do mundo real e a confusão que os problemas do mundo real envolvem. Pessoalmente, quando comecei a usar dados do mundo real, minha habilidade como praticante floresceu. Portanto, embora eu não o desanime de usar coisas como a UCI como trampolim ou teste, fique de olho no prêmio!

— Patrick Caldon

Você deve especificar que tipo de aprendizado de máquina você está fazendo. Os conjuntos de dados de classificação binária são diferentes dos conjuntos de dados de aproximação de função (regressão).

— Douglas Zare

stackoverflow.com/questions/3272806/…

— Abhishek Gupta

Respostas:

No repositório de aprendizado de máquina UC Irvine :

Atualmente, mantemos 223 conjuntos de dados como um serviço para a comunidade de aprendizado de máquina. Você pode visualizar todos os conjuntos de dados por meio de nossa interface pesquisável. Nosso site antigo ainda está disponível para quem prefere o formato antigo. ... Se você deseja doar um conjunto de dados, consulte nossa política de doações. ... Também criamos um site espelho para o Repositório.

Além disso, o seguinte conjunto de dados MIAS foi amplamente utilizado e estudado:

Ao comparar um algoritmo, é recomendável usar um banco de dados de teste padrão (conjunto de dados) para que os pesquisadores possam comparar diretamente os resultados. A maioria dos bancos de dados mamográficos não está disponível ao público. Os bancos de dados mais facilmente acessados e, portanto, os bancos de dados mais usados são o banco de dados da Sociedade de Análise de Imagem Mamográfica (MIAS) e o Banco de Dados Digital para Mamografia de Triagem (DDSM). Além disso, atualmente existem poucos projetos desenvolvendo novos bancos de dados de imagens mamográficas, além de vários projetos antigos.

— deepML
fonte

+1 Se você continuar a encontrar mais fontes, sinta-se à vontade para aumentar esta resposta.

— whuber

O repositório UCI mencionado por Bashar é provavelmente o maior, no entanto, eu queria adicionar algumas coleções menores que me deparei:

Conjuntos de dados da biblioteca Mulan Java
Conjuntos de dados do laboratório Auton da Escola de Ciência da Computação da Universidade Carnegie Mellon
Conjuntos de dados usados nos elementos do livro de aprendizado estatístico
Vários conjuntos de dados das competições da KDD Cup
Conjuntos de dados no Departamento de Estatística da Universidade de Munique

— sebp
fonte