Ferramenta para gerar grandes conjuntos de dados de dados de teste [fechados]


25

Muitas vezes, ao tentar criar um design de banco de dados eficiente, o melhor curso de ação é criar dois bancos de dados de amostra, preenchê-los com dados e executar algumas consultas com eles para ver qual deles tem melhor desempenho.

Existe uma ferramenta que irá gerar (idealmente direto para o banco de dados) grandes (~ 10.000 registros) grandes conjuntos de dados de teste com relativa rapidez? Estou procurando algo que pelo menos funcione com o MySQL.

Respostas:


12

A melhor ferramenta (se você a encontrar) é o DataFactory. (Infelizmente, esgotado). Eu criei conjuntos de dados absolutamente deliciosos (e de aparência bastante autêntica) a partir dele.

Generatedata.com é ... aceitável, mas não escala muito bem.

DataGenerator é algo para ficar de olho.

E enquanto o DTM Data Generator é desajeitado e um péssimo substituto para o DataFactory, ele existe e está sendo vendido, e eu o usei para gerar dados levemente aceitáveis.



4

Normalmente, eu gero os meus, usando alguns dados conhecidos como entrada - se é muito aleatório, nem sempre é um bom teste; Preciso de dados que serão distribuídos de maneira semelhante ao meu produto final.

Todos os bancos de dados maiores que eu tenho que ajustar são de natureza científica - então geralmente posso usar outras investigações como entrada e redimensioná-las e adicionar jitter. (por exemplo, pegar dados com cadência de 5 minutos com precisão de milissegundos e transformá-los em cadência de 10 segundos com precisão de milissegundos, mas com instabilidade de +/- 100 ms às vezes)

...

Mas, como outra alternativa, se você não quiser escrever por conta própria, é examinar algumas das ferramentas de benchmarking - como elas podem repetir as coisas várias vezes com base em um conjunto de treinamento, você pode usá-las para inserir muitas de registros (e depois ignore os relatórios sobre a rapidez com que ele foi feito) ... e, em seguida, você poderá usar a mesma ferramenta para testar a rapidez com que o banco de dados executa uma vez preenchido.


3

Eu tenho usado o mysqlslap. Ele limpa depois de si também.

Aqui está o artigo que li quando comecei a usá-lo.




1

A maneira mais econômica é provavelmente usar um gerador de dados comerciais ou de código aberto. Eu costumava fazer isso.

Agora, nos meus anos dourados, considero cada necessidade de dados de teste um mandato para aprender outra linguagem de script.


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.