Localizando amostras de dados disponíveis gratuitamente


98

Eu tenho trabalhado em um novo método para analisar e analisar conjuntos de dados para identificar e isolar subgrupos de uma população sem conhecer as características de nenhum subgrupo. Embora o método funcione bem o suficiente com amostras de dados artificiais (ou seja, conjuntos de dados criados especificamente com o objetivo de identificar e segregar subconjuntos da população), eu gostaria de tentar testá-lo com dados ao vivo.

O que estou procurando é uma fonte de dados disponível gratuitamente (ou seja, não confidencial, não proprietária). De preferência, uma contendo distribuições bimodais ou multimodais ou obviamente composta de vários subconjuntos que não podem ser facilmente separados por meios tradicionais. Onde eu iria encontrar essas informações?



4
Você pode gostar do getthedata.org, um site de perguntas e respostas dedicado à localização de conjuntos de dados
Jeromy Anglim

Respostas:



46


17

O Banco Mundial oferece muitos dados interessantes e recentemente foi muito ativo no desenvolvimento de uma API agradávelpara ele.

Além disso, o projeto commugrate tem uma lista interessante disponível.

Para dados de saúde dos EUA, vá para o Health Indicators Warehouse .

O blog de Daniel Lemire aponta para alguns exemplos interessantes (principalmente adaptados à pesquisa de banco de dados), incluindo o Censo Canadense 1880 e relatórios de nuvens sinópticas .

E até hoje (03/04/2012) os registros do censo dos EUA em 1940 também estão disponíveis para download.


2
O Banco Mundial está indo além com dados e mapas abertos, para Stata e R.
pe.

13

O Gapminder possui um número (430 na última visualização) de conjuntos de dados, que podem ou não ser úteis para você.


11

O MLComp possui alguns conjuntos de dados interessantes e, como bônus, seu algoritmo será classificado se você fizer o upload.


10

Um bom lugar para procurar é a Biblioteca de Histórias e Dados da Carnegie Mellon University ou DASL , que contém arquivos de dados que "ilustram o uso de métodos estatísticos básicos ... Um bom exemplo pode fazer com que uma lição sobre um determinado método estatístico seja vívida e relevante. projetado para ajudar os professores a localizar e identificar arquivos de dados para ensino. Esperamos que o DASL também sirva como um arquivo para conjuntos de dados da literatura estatística ".


9

Inicie R e digite data(). Isso mostrará todos os conjuntos de dados no caminho de pesquisa. Muitos conjuntos de dados adicionais estão disponíveis em pacotes complementares. Por exemplo, existem alguns conjuntos de dados de ciências sociais do mundo real interessantes no AERpacote.




5

A rede Stack Exchange agora possui um novo site, Open Data (na versão beta em 5 de março de 2015), dedicado aos dados. Ele se descreve como:

O Open Data Stack Exchange é um site de perguntas e respostas para desenvolvedores e pesquisadores interessados ​​em dados abertos. Ele foi desenvolvido e executado por você como parte da rede de sites de perguntas e respostas do Stack Exchange. Com sua ajuda, estamos trabalhando juntos para criar uma biblioteca de respostas detalhadas para todas as perguntas sobre dados abertos.

"Dados abertos" refere-se a conjuntos de dados "disponíveis gratuitamente para todos usarem e republicarem como desejarem, sem restrições de direitos autorais, patentes ou outros mecanismos de controle" ( Wikipedia ). No entanto, o site parece passível de solicitações de conjuntos de dados fechados .







2

Os conjuntos de dados do livro seminal A handbook of small data setsestão disponíveis aqui .


2

Procurando um conjunto de dados apropriado para minhas necessidades, acabei de me deparar com dois sites que são pertinentes a esta discussão.

Datacite.org que se descreve como ...

Somos uma organização internacional que visa:

  • estabelecer um acesso mais fácil aos dados da pesquisa
  • aumentar a aceitação dos dados da pesquisa como contribuições legítimas nos registros acadêmicos e
  • apoiar o arquivamento de dados para permitir que os resultados sejam verificados e redefinidos para estudos futuros.

DataBib.org que se descreve como ...

O Databib é uma ferramenta para ajudar as pessoas a identificar e localizar repositórios online de dados de pesquisa. Usuários e bibliografistas criam e selecionam registros que descrevem repositórios de dados que os usuários podem pesquisar.

Achei que valeria a pena adicioná-lo à lista aqui para outros.

Agora, para encontrar algo em seus links que atenda às minhas necessidades!


2

Eu recomendo verificar quandl.com . Este é um sonho dos programadores de dados. Ele fornece uma API muito fácil para acessar qualquer um dos mais de 10 milhões de dados diferentes. Você está procurando dados bi-modiais ou multi-variáveis, portanto, sugiro verificar os vários conjuntos de dados populacionais, por exemplo, este gráfico mundial de população contém os países e territórios subcomponentes que entram no total.


1
Alguns dados do quandl são gratuitos, outros "Premium", isto é, custam $$. Além disso, meu sonho de API inclui séries de séries de nrows, ncols e plotagens on-line (eu quero um pônei).
Denis19 /






Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.