Conjunto de dados gratuito para classificação dimensional muito alta [fechado]


35

Quais são os conjuntos de dados disponíveis gratuitamente para classificação com mais de 1000 recursos (ou pontos de amostra, se contiverem curvas)?

Já existe um wiki da comunidade sobre conjuntos de dados gratuitos: Localizando amostras de dados disponíveis gratuitamente

Mas aqui, seria bom ter uma lista mais focada que possa ser usada de forma mais conveniente , também proponho as seguintes regras:

  1. Uma postagem por conjunto de dados
  2. Nenhum link para o conjunto de dados
  3. cada conjunto de dados deve estar associado a

    • um nome (para descobrir do que se trata) e um link para o conjunto de dados (os conjuntos de dados R podem ser nomeados com o nome do pacote)

    • o número de recursos (digamos que seja p ), o tamanho do conjunto de dados (digamos que seja n ) e o número de rótulos / classe (digamos que seja k )

    • uma taxa de erro típica da sua experiência (indique o algoritmo usado em palavras) ou da literatura (neste último caso, vincule o artigo)


+1, mas os do NIPS2003 têm apenas train.labels - o documento do NIPS2003 diz claramente que "as etiquetas de validação e conjunto de teste são retidas".
Denis

Obrigado. O comentário sobre o NIPS é para a resposta do @mbq.
robin Girard

Alguém aqui tem um conjunto de dados de alta dimensão com mais de dois rótulos de classe?
hlin117

Respostas:


3

Dorothea
n = 1,950
p = 100,000 (0,1 M, metade é adicionado artificialmente ruído)
k = 2 (~ 10 vezes desequilibrada)
De NIPS2003 .


Você pode explicar como são esses 100000 recursos? Eu olho para os dados de treinamento e cada linha tem talvez 2500 números inteiros por linha.
precisa saber é o seguinte

É uma matriz esparsa, inteiro N significa valor de atributo N é 1.


3

Dexter
n = 2,600
p = 20,000 (10k + 53 é artificial ruído)
k = 2 (relação)
De NIPS2003 .


Eu não entendo ... um conjunto por pessoa?

@robin & @mbq Eu sugeriria manter um conjunto de dados por postagem. Isto para que as pessoas podem indicar com votos que das sugeridas há também sugerem / suporte
Peter Smit

@ Peter, OK, eu sigo a sua idéia, eu mudei a pergunta de acordo.
Robin girard


2

Próstata (matriz de expressão gênica)

  • k = 2
  • n = 48 + 52
  • p = 6033

Disponível via (entre outros) pacotes R divide o nome do conjunto de dados: próstata

taxa de erro = 3/102 (veja aqui ) também acho que existem documentos que mostram 1/102 de taxa de erro. Eu diria que este é um caso de teste fácil.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.