Conjuntos de dados publicamente disponíveis


168

Um dos problemas comuns na ciência de dados é coletar dados de várias fontes em um formato de alguma forma limpo (semiestruturado) e combinar métricas de várias fontes para fazer uma análise de nível superior. Observando o esforço de outras pessoas, especialmente outras perguntas neste site, parece que muitas pessoas neste campo estão realizando um trabalho repetitivo. Por exemplo, analisar tweets, postagens no Facebook, artigos da Wikipedia etc. faz parte de muitos problemas de big data.

Alguns desses conjuntos de dados são acessíveis usando APIs públicas fornecidas pelo site do provedor, mas geralmente faltam algumas informações ou métricas valiosas nessas APIs e todos precisam fazer as mesmas análises repetidas vezes. Por exemplo, embora os usuários de cluster possam depender de diferentes casos de uso e seleção de recursos, mas ter um cluster básico de usuários do Twitter / Facebook pode ser útil em muitos aplicativos de Big Data, que não são fornecidos pela API nem estão disponíveis publicamente em conjuntos de dados independentes .

Existe algum site de hospedagem de índice ou de conjunto de dados publicamente disponível contendo conjuntos de dados valiosos que podem ser reutilizados na solução de outros problemas de big data? Quero dizer algo como o GitHub (ou um grupo de sites / conjuntos de dados públicos ou pelo menos uma lista abrangente) para a ciência de dados. Caso contrário, quais são as razões para não ter uma plataforma desse tipo para ciência de dados? O valor comercial dos dados, precisa atualizar frequentemente conjuntos de dados, ...? Não podemos ter um modelo de código aberto para compartilhar conjuntos de dados criados para cientistas de dados?


18
Esta pergunta pode ser mais apropriada no opendata.SE dedicado . Dito isto, cruzo meus dedos por esse dado , que aspira a se tornar um "Git para dados".
ojdo

2
@ojdo Obrigado, nunca ouvi falar de opendata.SE antes, também achei essa pergunta interessante (e muito semelhante) lá.
Amir Ali Akbari


Não encontrei bons conjuntos de dados abrangentes gratuitos para aplicativos típicos de Business Intelligence. O conjunto de dados de demonstração do Microsoft Contoso BI para o setor de varejo do download oficial do Microsoft Download Center funciona com alguns produtos da Microsoft (consulte AndyGett no SharePoint e outros softwares comerciais ), mas não vejo nenhum despejo simples de sql ou csv, nem informações de licença .
Nellmcb

1
Você ingressou no Open Data Stack Exchange? opendata.stackexchange.com
sss4r

Respostas:


88

De fato, existe uma lista bastante razoável de conjuntos de dados publicamente disponíveis, suportados por diferentes empresas / fontes.

Alguns deles estão abaixo:

Agora, duas considerações sobre sua pergunta. Primeiro, em relação às políticas de compartilhamento de banco de dados. Por experiência pessoal, existem alguns bancos de dados que não podem ser disponibilizados ao público, seja por envolver restrições de privacidade (como em algumas informações de redes sociais) ou por preocupar-se com informações do governo (como bancos de dados de sistemas de saúde).

Outro ponto diz respeito ao uso / aplicação do conjunto de dados. Embora algumas bases possam ser reprocessadas para atender às necessidades do aplicativo, seria ótimo ter uma boa organização dos conjuntos de dados por finalidade. A taxonomia deve envolver análise de gráficos sociais, mineração de conjuntos de itens, classificação e muitas outras áreas de pesquisa que possam existir.


64

37

Existem muitos conjuntos de dados disponíveis abertamente, um dos quais muitas pessoas ignoram é o data.gov . Como mencionado anteriormente, o Freebase é ótimo, assim como todos os exemplos publicados por @Rubens


35

O Freebase é um banco de dados gratuito dirigido pela comunidade, que abrange muitos tópicos interessantes e contém cerca de 2,5 bilhões de fatos em formato legível por máquina. Também é uma boa API para executar consultas de dados.

Aqui está outra lista compilada de conjuntos de dados abertos: http://www.datapure.co/open-data-sets


O Freebase está sendo fechado e seu banco de dados será movido para o Wikidata em breve.
amigos estão dizendo sobre cynddl


25

Para dados de séries temporais, em particular, Quandl é um excelente recurso - um diretório facilmente navegável (principalmente) de séries temporais limpas.

Um de seus recursos mais interessantes é o preço das ações de dados abertos - ou seja, dados financeiros que podem ser editados no estilo wiki e não são onerados pelo licenciamento.


20

Enigma é um repositório de conjuntos de dados públicos disponíveis. Seu plano gratuito oferece pesquisa de dados públicos, com 10 mil chamadas de API por mês. Nem todos os bancos de dados públicos estão listados, mas a lista é suficiente para casos comuns.

Usei-o para pesquisas acadêmicas e me poupou muito tempo.


Outra fonte interessante de dados é o projeto @unitedstates , contendo dados e ferramentas para coletá-los, sobre os Estados Unidos (membros do Congresso, formas geográficas ...).


18

Gostaria de apontar para o Censo de dados abertos . É uma iniciativa da Open Knowledge Foundation baseada em contribuições de advogados e especialistas em dados abertos em todo o mundo.

O valor do Censo de dados abertos é um esforço aberto, orientado pela comunidade e sistemático para coletar e atualizar o banco de dados de conjuntos de dados abertos globalmente no país e, em alguns casos, como nos EUA, no nível da cidade .

Além disso, apresenta uma oportunidade de comparar diferentes países e cidades em áreas de interesse selecionadas.


18

Há também outro recurso fornecido pelo The Guardian, o British Daily em seu site. Os conjuntos de dados publicados pelo Guardian Datablog estão todos hospedados. Conjuntos de dados relacionados às contas dos clubes Football Premier League, detalhes da inflação e do PIB do Reino Unido, dados do Grammy Awards etc. Os conjuntos de dados estão disponíveis em

Mais alguns recursos. Alguns dos conjuntos de dados estão no formato R ou existem vírgulas para importar dados diretamente para R.


17

Pesquisa personalizada do Google

Você pode usar a Pesquisa personalizada do Google para conjuntos de dados:

Pesquisa personalizada do Google: conjuntos de dados

Inclui 230 fontes e meta-fontes de conjuntos de dados, incluindo todos os mencionados nesta pergunta. Sinta-se à vontade para excluir os resultados .gov e outros sites da Web adicionando "-.gov" ou "-site.com" à linha de pesquisa. Outros operadores de pesquisa do Google funcionam.

Não hesite em entrar em contato comigo se tiver idéias de quais sites adicionar.

IOGDS

O serviço a seguir categoriza mais de 1.000.000 de conjuntos de dados públicos:

IOGDS: Pesquisa de conjunto de dados do governo aberto internacional


Quais são os parâmetros para o link de pesquisa personalizado que você forneceu? Ele pesquisa em uma lista de sites, palavras-chave etc.?
Amir Ali Akbari

@AmirAliAkbari Ele pesquisa em fontes como Data.gov, Quandl e outros data warehouses importantes.
Anton Tarasenko

16

Resposta tardia, mas aqui está uma lista eclética de mais de 100 conjuntos de dados interessantes

A postagem do blog é divertida e fácil de ler (não tenho afiliação). Vale a pena examinar e raspar alguns do topo:

  • Últimas palavras de todos os presos do Texas executados desde 1984

  • 10.000 imagens anotadas de gatos

  • 2,2 milhões de partidas de xadrez





14

Eu sou novo neste fórum. Falando tarde sobre esta questão. Tenho mantido (sou co-fundador de) um catálogo de portais de dados publicamente disponíveis. Atualmente, existem mais de 1000 listadas e cobrem portais nos níveis internacional, federal, estadual, municipal e acadêmico em todo o mundo.

http://www.opengeocode.org/opendata/


14

Estou surpreso que não tenha mencionado isso, pois parece bastante óbvio: http://www.kaggle.com tem consistentemente novos e muito interessantes conjuntos de dados. As informações são consideradas um ativo; muitas vezes as empresas não desejam liberar esses dados (além de preocupações com a privacidade). O Kaggle fornece dados e eles esperam que você resolva problemas de negócios com eles em troca.


14

1
Você pode nos fornecer algumas informações sobre os dois conjuntos de dados / links? Isso realmente aliviará a carga de quem procura tipos específicos de conjunto de dados. Dê uma olhada em outras postagens para ver que tipo de informação suas referências estão ausentes.
Rubens

11

Como você mencionou, a API é a parte mais difícil, não os dados. O Quandl parece resolver esse problema fornecendo mais de 10 milhões de conjuntos de dados publicamente disponíveis em uma API RESTful fácil. Se a programação não é o seu ponto forte, existe uma ferramenta gratuita para facilitar o carregamento de dados no Excel. Além disso, se você fazer desfrutar de uma programação, há várias bibliotecas nativas em R, Python, Java e muito mais .





9

Uma outra fonte de dados que não vi na lista é o Projeto GDELT . Do site:

O Projeto GDELT monitora as notícias de difusão, impressão e web do mundo em quase todos os cantos de todos os países em mais de 100 idiomas e identifica as pessoas, locais, organizações, contagens, temas, fontes e eventos que impulsionam nossa sociedade global a cada segundo de cada dia, criando uma plataforma aberta gratuita para computação em todo o mundo.


8

Este subreddit lista muitos conjuntos de dados conhecidos

Conjuntos de dados Reddit

Existem muitas solicitações de conjuntos de dados nesse subreddit, várias das quais foram respondidas.


6

Eu criei um repositório no github para isso. Os conjuntos de dados não são grandes, mas são exemplos mínimos destinados a praticar e explorar técnicas de modelagem preditiva que podem ser estendidas para grandes conjuntos de dados.

Bíblia sobre problemas de aprendizado de máquina (MLPB)

O legal / exclusivo desse repositório é que todo problema é marcado com tags como [multi-class], [unbalanced-data], [regression] etc., facilitando a localização de certos tipos de problemas / conjuntos de dados.



6

Além de todos esses conjuntos de dados, se você estiver interessado em dados relacionados à Índia. O site público oficial do governo indiano é

Ele fornece conjuntos de dados de diferentes departamentos do governo indiano, que podem ser bem utilizados para análise de big data e aprendizado de máquina.



4

Quando carregamos o pacote MASS no R, acessamos vários quadros de dados ou conjuntos de dados.

install.packages ("MASS") requer ("MASS")


3

3 conjuntos de dados de https://www.jc-bingo.com/about

  • visitor-interests.csv Interesses agregados de visitantes compilados com base em registros de acesso à web de uma semana. Inclui o endereço IP do visitante, a sequência do agente do usuário, o país do visitante, os idiomas e os tópicos das páginas acessadas. 19.926 registros, 2,9 Mb.
  • user-agents.csv Agentes de usuários reais visitantes ordenados por popularidade. 4.826 registros, 716 Kb.
  • bots.csv Endereços IP do robô e sequências de agente do usuário extraídas dos logs de acesso à web. 1.293 registros, 122 Kb.

3

Obviamente, existe um grande conjunto de bancos de dados públicos.

Um ainda não mencionado, é da FAO (Organização das Nações Unidas para Agricultura e Alimentação), acessível em:

http://www.fao.org/faostat/

Ele contém dados sobre a produção de alimentos para países do mundo todo.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.