Um dos problemas comuns na ciência de dados é coletar dados de várias fontes em um formato de alguma forma limpo (semiestruturado) e combinar métricas de várias fontes para fazer uma análise de nível superior. Observando o esforço de outras pessoas, especialmente outras perguntas neste site, parece que muitas pessoas neste campo estão realizando um trabalho repetitivo. Por exemplo, analisar tweets, postagens no Facebook, artigos da Wikipedia etc. faz parte de muitos problemas de big data.
Alguns desses conjuntos de dados são acessíveis usando APIs públicas fornecidas pelo site do provedor, mas geralmente faltam algumas informações ou métricas valiosas nessas APIs e todos precisam fazer as mesmas análises repetidas vezes. Por exemplo, embora os usuários de cluster possam depender de diferentes casos de uso e seleção de recursos, mas ter um cluster básico de usuários do Twitter / Facebook pode ser útil em muitos aplicativos de Big Data, que não são fornecidos pela API nem estão disponíveis publicamente em conjuntos de dados independentes .
Existe algum site de hospedagem de índice ou de conjunto de dados publicamente disponível contendo conjuntos de dados valiosos que podem ser reutilizados na solução de outros problemas de big data? Quero dizer algo como o GitHub (ou um grupo de sites / conjuntos de dados públicos ou pelo menos uma lista abrangente) para a ciência de dados. Caso contrário, quais são as razões para não ter uma plataforma desse tipo para ciência de dados? O valor comercial dos dados, precisa atualizar frequentemente conjuntos de dados, ...? Não podemos ter um modelo de código aberto para compartilhar conjuntos de dados criados para cientistas de dados?