Conjunto de dados gratuito para classificação dimensional muito alta [fechado]

35

Quais são os conjuntos de dados disponíveis gratuitamente para classificação com mais de 1000 recursos (ou pontos de amostra, se contiverem curvas)?

Já existe um wiki da comunidade sobre conjuntos de dados gratuitos: Localizando amostras de dados disponíveis gratuitamente

Mas aqui, seria bom ter uma lista mais focada que possa ser usada de forma mais conveniente , também proponho as seguintes regras:

Uma postagem por conjunto de dados
Nenhum link para o conjunto de dados
cada conjunto de dados deve estar associado a
- um nome (para descobrir do que se trata) e um link para o conjunto de dados (os conjuntos de dados R podem ser nomeados com o nome do pacote)
- o número de recursos (digamos que seja p ), o tamanho do conjunto de dados (digamos que seja n ) e o número de rótulos / classe (digamos que seja k )
- uma taxa de erro típica da sua experiência (indique o algoritmo usado em palavras) ou da literatura (neste último caso, vincule o artigo)

— robin girard
fonte

+1, mas os do NIPS2003 têm apenas train.labels - o documento do NIPS2003 diz claramente que "as etiquetas de validação e conjunto de teste são retidas".

— Denis

Obrigado. O comentário sobre o NIPS é para a resposta do @mbq.

— robin Girard

Alguém aqui tem um conjunto de dados de alta dimensão com mais de dois rótulos de classe?

— hlin117

3

Dorothea
n = 1,950
p = 100,000 (0,1 M, metade é adicionado artificialmente ruído)
k = 2 (~ 10 vezes desequilibrada)
De NIPS2003 .

— user88
fonte

Você pode explicar como são esses 100000 recursos? Eu olho para os dados de treinamento e cada linha tem talvez 2500 números inteiros por linha.

— precisa saber é o seguinte

É uma matriz esparsa, inteiro N significa valor de atributo N é 1.

3

Gisette
n = 13,500
p = 5,000 (metade é adicionado artificialmente ruído)
k = 2 (relação)
De NIPS2003 .

— user88
fonte

3

Dexter
n = 2,600
p = 20,000 (10k + 53 é artificial ruído)
k = 2 (relação)
De NIPS2003 .

— user88
fonte

Eu não entendo ... um conjunto por pessoa?

@robin & @mbq Eu sugeriria manter um conjunto de dados por postagem. Isto para que as pessoas podem indicar com votos que das sugeridas há também sugerem / suporte

— Peter Smit

@ Peter, OK, eu sigo a sua idéia, eu mudei a pergunta de acordo.

— Robin girard

3

Arcene
n = 900
p = 10000 (3k é adicionado artificialmente ruído)
k = 2 (~ equilibrado)
De NIPS2003 .

— user88
fonte

2

Próstata (matriz de expressão gênica)

k = 2
n = 48 + 52
p = 6033

Disponível via (entre outros) pacotes R divide o nome do conjunto de dados: próstata

taxa de erro = 3/102 (veja aqui ) também acho que existem documentos que mostram 1/102 de taxa de erro. Eu diria que este é um caso de teste fácil.

— robin girard
fonte