Conjuntos de dados publicamente disponíveis

168

Um dos problemas comuns na ciência de dados é coletar dados de várias fontes em um formato de alguma forma limpo (semiestruturado) e combinar métricas de várias fontes para fazer uma análise de nível superior. Observando o esforço de outras pessoas, especialmente outras perguntas neste site, parece que muitas pessoas neste campo estão realizando um trabalho repetitivo. Por exemplo, analisar tweets, postagens no Facebook, artigos da Wikipedia etc. faz parte de muitos problemas de big data.

Alguns desses conjuntos de dados são acessíveis usando APIs públicas fornecidas pelo site do provedor, mas geralmente faltam algumas informações ou métricas valiosas nessas APIs e todos precisam fazer as mesmas análises repetidas vezes. Por exemplo, embora os usuários de cluster possam depender de diferentes casos de uso e seleção de recursos, mas ter um cluster básico de usuários do Twitter / Facebook pode ser útil em muitos aplicativos de Big Data, que não são fornecidos pela API nem estão disponíveis publicamente em conjuntos de dados independentes .

Existe algum site de hospedagem de índice ou de conjunto de dados publicamente disponível contendo conjuntos de dados valiosos que podem ser reutilizados na solução de outros problemas de big data? Quero dizer algo como o GitHub (ou um grupo de sites / conjuntos de dados públicos ou pelo menos uma lista abrangente) para a ciência de dados. Caso contrário, quais são as razões para não ter uma plataforma desse tipo para ciência de dados? O valor comercial dos dados, precisa atualizar frequentemente conjuntos de dados, ...? Não podemos ter um modelo de código aberto para compartilhar conjuntos de dados criados para cientistas de dados?

open-source dataset

— Amir Ali Akbari
fonte

18

Esta pergunta pode ser mais apropriada no opendata.SE dedicado . Dito isto, cruzo meus dedos por esse dado , que aspira a se tornar um "Git para dados".

— ojdo

2

@ojdo Obrigado, nunca ouvi falar de opendata.SE antes, também achei essa pergunta interessante (e muito semelhante) lá.

— Amir Ali Akbari

2

Consulte quora.com/Where-can-I-find-large-datasets-open-to-the-public .

— Piotr Migdal

Não encontrei bons conjuntos de dados abrangentes gratuitos para aplicativos típicos de Business Intelligence. O conjunto de dados de demonstração do Microsoft Contoso BI para o setor de varejo do download oficial do Microsoft Download Center funciona com alguns produtos da Microsoft (consulte AndyGett no SharePoint e outros softwares comerciais ), mas não vejo nenhum despejo simples de sql ou csv, nem informações de licença .

— Nellmcb

1

Você ingressou no Open Data Stack Exchange? opendata.stackexchange.com

— sss4r

88

De fato, existe uma lista bastante razoável de conjuntos de dados publicamente disponíveis, suportados por diferentes empresas / fontes.

Alguns deles estão abaixo:

Conjuntos de dados públicos nos Amazon WebServices ;
Repositório de Implementação de Mineração de Conjunto de Itens Frequentes ;
Repositório de aprendizado de máquina da UCI ;
KDnuggets - uma grande lista de muitos repositórios públicos.

Agora, duas considerações sobre sua pergunta. Primeiro, em relação às políticas de compartilhamento de banco de dados. Por experiência pessoal, existem alguns bancos de dados que não podem ser disponibilizados ao público, seja por envolver restrições de privacidade (como em algumas informações de redes sociais) ou por preocupar-se com informações do governo (como bancos de dados de sistemas de saúde).

Outro ponto diz respeito ao uso / aplicação do conjunto de dados. Embora algumas bases possam ser reprocessadas para atender às necessidades do aplicativo, seria ótimo ter uma boa organização dos conjuntos de dados por finalidade. A taxonomia deve envolver análise de gráficos sociais, mineração de conjuntos de itens, classificação e muitas outras áreas de pesquisa que possam existir.

— Rubens
fonte

64

Atualizar:

O Kaggle.com , um lar de entusiastas modernos de ciência de dados e aprendizado de máquina :), abriu seu próprio repositório de conjuntos de dados .

Além das fontes listadas.

Alguns conjuntos de dados de redes sociais:

Existem muitas fontes listadas no Stats SE:

— IharS
fonte

37

Existem muitos conjuntos de dados disponíveis abertamente, um dos quais muitas pessoas ignoram é o data.gov . Como mencionado anteriormente, o Freebase é ótimo, assim como todos os exemplos publicados por @Rubens

— MCP_infiltrator
fonte

35

O Freebase é um banco de dados gratuito dirigido pela comunidade, que abrange muitos tópicos interessantes e contém cerca de 2,5 bilhões de fatos em formato legível por máquina. Também é uma boa API para executar consultas de dados.

Aqui está outra lista compilada de conjuntos de dados abertos: http://www.datapure.co/open-data-sets

— Konstantin V. Salikhov
fonte

O Freebase está sendo fechado e seu banco de dados será movido para o Wikidata em breve.

— amigos estão dizendo sobre cynddl

31

Os seguintes links estão disponíveis

— Jakubee
fonte

25

Para dados de séries temporais, em particular, Quandl é um excelente recurso - um diretório facilmente navegável (principalmente) de séries temporais limpas.

Um de seus recursos mais interessantes é o preço das ações de dados abertos - ou seja, dados financeiros que podem ser editados no estilo wiki e não são onerados pelo licenciamento.

— azza-bazoo
fonte

20

Enigma é um repositório de conjuntos de dados públicos disponíveis. Seu plano gratuito oferece pesquisa de dados públicos, com 10 mil chamadas de API por mês. Nem todos os bancos de dados públicos estão listados, mas a lista é suficiente para casos comuns.

Usei-o para pesquisas acadêmicas e me poupou muito tempo.

Outra fonte interessante de dados é o projeto @unitedstates , contendo dados e ferramentas para coletá-los, sobre os Estados Unidos (membros do Congresso, formas geográficas ...).

— cynddl
fonte

18

Gostaria de apontar para o Censo de dados abertos . É uma iniciativa da Open Knowledge Foundation baseada em contribuições de advogados e especialistas em dados abertos em todo o mundo.

O valor do Censo de dados abertos é um esforço aberto, orientado pela comunidade e sistemático para coletar e atualizar o banco de dados de conjuntos de dados abertos globalmente no país e, em alguns casos, como nos EUA, no nível da cidade .

Além disso, apresenta uma oportunidade de comparar diferentes países e cidades em áreas de interesse selecionadas.

— tomaskazemekas
fonte

18

Há também outro recurso fornecido pelo The Guardian, o British Daily em seu site. Os conjuntos de dados publicados pelo Guardian Datablog estão todos hospedados. Conjuntos de dados relacionados às contas dos clubes Football Premier League, detalhes da inflação e do PIB do Reino Unido, dados do Grammy Awards etc. Os conjuntos de dados estão disponíveis em

http://www.theguardian.com/news/datablog/interactive/2013/jan/14/all-our-datasets-index

Mais alguns recursos. Alguns dos conjuntos de dados estão no formato R ou existem vírgulas para importar dados diretamente para R.

http://www.inside-r.org/howto/finding-data-internet

— binga
fonte

17

Pesquisa personalizada do Google

Você pode usar a Pesquisa personalizada do Google para conjuntos de dados:

Pesquisa personalizada do Google: conjuntos de dados

Inclui 230 fontes e meta-fontes de conjuntos de dados, incluindo todos os mencionados nesta pergunta. Sinta-se à vontade para excluir os resultados .gov e outros sites da Web adicionando "-.gov" ou "-site.com" à linha de pesquisa. Outros operadores de pesquisa do Google funcionam.

Não hesite em entrar em contato comigo se tiver idéias de quais sites adicionar.

IOGDS

O serviço a seguir categoriza mais de 1.000.000 de conjuntos de dados públicos:

IOGDS: Pesquisa de conjunto de dados do governo aberto internacional

— Anton Tarasenko
fonte

Quais são os parâmetros para o link de pesquisa personalizado que você forneceu? Ele pesquisa em uma lista de sites, palavras-chave etc.?

— Amir Ali Akbari

@AmirAliAkbari Ele pesquisa em fontes como Data.gov, Quandl e outros data warehouses importantes.

— Anton Tarasenko

16

Resposta tardia, mas aqui está uma lista eclética de mais de 100 conjuntos de dados interessantes

A postagem do blog é divertida e fácil de ler (não tenho afiliação). Vale a pena examinar e raspar alguns do topo:

Últimas palavras de todos os presos do Texas executados desde 1984
10.000 imagens anotadas de gatos
2,2 milhões de partidas de xadrez

— philshem
fonte

15

Encontrei este link no Data Science Central com uma lista de conjuntos de dados gratuitos: Grandes conjuntos de dados disponíveis gratuitamente

— lafdez
fonte

15

Você sabia sobre os benchmarks PUMA e downloads de conjuntos de dados? https://sites.google.com/site/farazahmad/pumadatasets

Inclui o seguinte:

TeraSort
Wikipedia
Item da lista
Auto-junção
Lista de adjacências
Banco de dados de filmes
Índice inverso-classificado

— algarecu
fonte

15

O governo do Reino Unido fornece uma excelente fonte de dados não pessoais coletados em todos os departamentos do governo: http://data.gov.uk

— Federer
fonte

14

Eu sou novo neste fórum. Falando tarde sobre esta questão. Tenho mantido (sou co-fundador de) um catálogo de portais de dados publicamente disponíveis. Atualmente, existem mais de 1000 listadas e cobrem portais nos níveis internacional, federal, estadual, municipal e acadêmico em todo o mundo.

http://www.opengeocode.org/opendata/

— Andrew - OpenGeoCode
fonte

14

Estou surpreso que não tenha mencionado isso, pois parece bastante óbvio: http://www.kaggle.com tem consistentemente novos e muito interessantes conjuntos de dados. As informações são consideradas um ativo; muitas vezes as empresas não desejam liberar esses dados (além de preocupações com a privacidade). O Kaggle fornece dados e eles esperam que você resolva problemas de negócios com eles em troca.

— RAM
fonte

14

Conjuntos de dados

Torrents Acadêmicos
Quora
hadoopilluminated.com
data.gov
Quandl
freebase.com
usgovxml.com
enigma.com
datahub.io
aws.amazon.com/datasets
databib.org
datacite.org
quandl.com
figshare.com
Bancos de dados para download herdados do GeoLite
Resposta dos grandes conjuntos de dados do Quora
Conjuntos públicos de Big Data
Houston Data Portal
Fontes de dados Kaggle
Um catálogo profundo de variação genética humana
Um banco de dados com curadoria da comunidade de pessoas, lugares e coisas conhecidas
Dados públicos do Google
Dados do Banco Mundial
Dados do táxi de Nova York
Philly de dados abertos Conectando pessoas com dados da Filadélfia
Repositório de rede Um repositório de dados interativo com mais de 600 redes em mais de 20 coleções; de redes sociais em larga escala, gráficos da web, redes biológicas, redes de comunicação e tecnológicas, etc.
Uma lista de fontes úteis Uma postagem no blog inclui muitos bancos de dados do conjunto de dados

Conjuntos de dados da awesome-datascience

— chenrui333
fonte

1

Você pode nos fornecer algumas informações sobre os dois conjuntos de dados / links? Isso realmente aliviará a carga de quem procura tipos específicos de conjunto de dados. Dê uma olhada em outras postagens para ver que tipo de informação suas referências estão ausentes.

— Rubens

11

Como você mencionou, a API é a parte mais difícil, não os dados. O Quandl parece resolver esse problema fornecendo mais de 10 milhões de conjuntos de dados publicamente disponíveis em uma API RESTful fácil. Se a programação não é o seu ponto forte, existe uma ferramenta gratuita para facilitar o carregamento de dados no Excel. Além disso, se você fazer desfrutar de uma programação, há várias bibliotecas nativas em R, Python, Java e muito mais .

— Brian Risk
fonte

11

Para adicionar a uma lista possivelmente interminável:

como mencionado pelo cyndd, existe o Wikidata ,

e para o conhecimento estruturado com curadoria, Wolfram Alpha .

— image_doctor
fonte

11

Me deparei com esta coleção no Github. A coleção também é categorizada.

https://github.com/caesar0301/awesome-public-datasets

E para a parte relativa

Não é possível um modelo de código aberto para compartilhar conjuntos de dados criados para cientistas de dados?

você pode consultar o guia do grupo Leek para compartilhamento de dados

— Shagun Sodhani
fonte

10

Nem todos os dados do governo estão listados em data.gov - a Sunlight Foundation montou um conjunto de planilhas em fevereiro, descrevendo os conjuntos de dados disponíveis.

— Steve Kallestad
fonte

9

Uma outra fonte de dados que não vi na lista é o Projeto GDELT . Do site:

O Projeto GDELT monitora as notícias de difusão, impressão e web do mundo em quase todos os cantos de todos os países em mais de 100 idiomas e identifica as pessoas, locais, organizações, contagens, temas, fontes e eventos que impulsionam nossa sociedade global a cada segundo de cada dia, criando uma plataforma aberta gratuita para computação em todo o mundo.

— dvdnglnd
fonte

8

Este subreddit lista muitos conjuntos de dados conhecidos

Conjuntos de dados Reddit

Existem muitas solicitações de conjuntos de dados nesse subreddit, várias das quais foram respondidas.

— Um cara
fonte

6

Eu criei um repositório no github para isso. Os conjuntos de dados não são grandes, mas são exemplos mínimos destinados a praticar e explorar técnicas de modelagem preditiva que podem ser estendidas para grandes conjuntos de dados.

Bíblia sobre problemas de aprendizado de máquina (MLPB)

O legal / exclusivo desse repositório é que todo problema é marcado com tags como [multi-class], [unbalanced-data], [regression] etc., facilitando a localização de certos tipos de problemas / conjuntos de dados.

— Ben
fonte

6

O Eurostats http://ec.europa.eu/eurostat e o Banco Central Europeu https://www.ecb.europa.eu/stats/html/index.en.html fornecem uma grande variedade de conjuntos de dados que eu uso frequentemente em meus projetos de trabalho.

— Juha
fonte

6

Além de todos esses conjuntos de dados, se você estiver interessado em dados relacionados à Índia. O site público oficial do governo indiano é

https://data.gov.in/

Ele fornece conjuntos de dados de diferentes departamentos do governo indiano, que podem ser bem utilizados para análise de big data e aprendizado de máquina.

— Gaurav
fonte

4

O Yahoo acaba de lançar um enorme conjunto de dados para a comunidade de pesquisa. Aproveite!

— Kasra Manshaei
fonte

4

Quando carregamos o pacote MASS no R, acessamos vários quadros de dados ou conjuntos de dados.

install.packages ("MASS") requer ("MASS")

— dileep balineni
fonte

3

3 conjuntos de dados de https://www.jc-bingo.com/about

visitor-interests.csv Interesses agregados de visitantes compilados com base em registros de acesso à web de uma semana. Inclui o endereço IP do visitante, a sequência do agente do usuário, o país do visitante, os idiomas e os tópicos das páginas acessadas. 19.926 registros, 2,9 Mb.
user-agents.csv Agentes de usuários reais visitantes ordenados por popularidade. 4.826 registros, 716 Kb.
bots.csv Endereços IP do robô e sequências de agente do usuário extraídas dos logs de acesso à web. 1.293 registros, 122 Kb.

— Yuri
fonte

3

Obviamente, existe um grande conjunto de bancos de dados públicos.

Um ainda não mencionado, é da FAO (Organização das Nações Unidas para Agricultura e Alimentação), acessível em:

http://www.fao.org/faostat/

Ele contém dados sobre a produção de alimentos para países do mundo todo.

— setempler
fonte