Recomendações para o hardware do Elastic Search [fechado]


10

Existem bons guias para o nível de hardware para dar suporte ao ElasticSearch? As recomendações para Lucene ou Solr são um bom ponto de partida? Estamos pensando em implantar uma implantação começando com

  • 27 milhões de documentos, 8 TB de dados
  • adicione 300k documentos por dia

Em seguida, dimensione isso em cerca de 10x, para

  • 270 milhões de documentos, 80 TB de dados
  • adicione 3 milhões de documentos / dia

Esse é um caso de uso estranho, em que as consultas estariam na casa dos milhares / dia, mas os tempos de resposta precisam permanecer baixos o suficiente para uma boa experiência com um aplicativo da web Ajaxy.


@ MarkHenderson: esta é uma pergunta real (sem brinquedo) e interessante. Eu acho que sua avaliação de ser "muito localizada" é fora do objetivo.
18747 David J.

David, a questão foi fechada conforme o nosso FAQ não fazemos compras perguntas
Mark Henderson

Respostas:


11

Existem muitos fatores que podem entrar em jogo, então eu não acho que haja muitas diretrizes gerais.

Você deve realizar uma avaliação em escala menor, talvez com 1/5 do conjunto de dados inicial para ver como as coisas se comportam quando você lança a indexação esperada e a carga de pesquisa na configuração. Isso garantirá que você entenda quanto espaço seus dados realmente consumirão no mecanismo de pesquisa. Para elasticsearch, depende se você está armazenando o json de origem e como os campos são analisados ​​e se eles são armazenados.

O EC2 pode ser uma maneira razoável de avaliar a pesquisa elástica sem um grande gasto h / a.

Para software baseado em cluster, como elasticsearch, existem vantagens e desvantagens entre manter o cluster menor versus maior. Um cluster grande é bom porque, quando você perde um servidor, menos dados precisam ser realocados. Um cluster menor consome menos energia e é mais fácil de manter.

Executamos um cluster com 35 milhões de documentos com tamanho total de índice em torno de 300 GB x 2, pois todos os índices são replicados. Para suportar isso e um número muito grande de pesquisas, temos 4 nós, cada um com 24 núcleos, 48 ​​GB de RAM e 1 TB de armazenamento com 10K discos em RAID10. Recentemente, aumentamos o tamanho do disco para garantir que tivéssemos mais espaço para a cabeça.

Para o seu caso, eu recomendaria mais RAM e mais disco. Você provavelmente pode economizar dinheiro em CPUs com esse volume de pesquisa.

O baixo volume de pesquisa realmente prejudica o desempenho, pois os caches (internos ao s / w usado e ao disco do SO) não serão aquecidos.

Espero que isso ajude, Paul


De que tipo de documentos você está falando? Histórico? Documentos reais?
Manuel Rauber
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.