Recomendações para o hardware do Elastic Search [fechado]

Existem bons guias para o nível de hardware para dar suporte ao ElasticSearch? As recomendações para Lucene ou Solr são um bom ponto de partida? Estamos pensando em implantar uma implantação começando com

27 milhões de documentos, 8 TB de dados
adicione 300k documentos por dia

Em seguida, dimensione isso em cerca de 10x, para

270 milhões de documentos, 80 TB de dados
adicione 3 milhões de documentos / dia

Esse é um caso de uso estranho, em que as consultas estariam na casa dos milhares / dia, mas os tempos de resposta precisam permanecer baixos o suficiente para uma boa experiência com um aplicativo da web Ajaxy.

hardware scaling elasticsearch

— James Socol
fonte

@ MarkHenderson: esta é uma pergunta real (sem brinquedo) e interessante. Eu acho que sua avaliação de ser "muito localizada" é fora do objetivo.

— 18747 David J.

David, a questão foi fechada conforme o nosso FAQ não fazemos compras perguntas

— Mark Henderson

Existem muitos fatores que podem entrar em jogo, então eu não acho que haja muitas diretrizes gerais.

Você deve realizar uma avaliação em escala menor, talvez com 1/5 do conjunto de dados inicial para ver como as coisas se comportam quando você lança a indexação esperada e a carga de pesquisa na configuração. Isso garantirá que você entenda quanto espaço seus dados realmente consumirão no mecanismo de pesquisa. Para elasticsearch, depende se você está armazenando o json de origem e como os campos são analisados e se eles são armazenados.

O EC2 pode ser uma maneira razoável de avaliar a pesquisa elástica sem um grande gasto h / a.

Para software baseado em cluster, como elasticsearch, existem vantagens e desvantagens entre manter o cluster menor versus maior. Um cluster grande é bom porque, quando você perde um servidor, menos dados precisam ser realocados. Um cluster menor consome menos energia e é mais fácil de manter.

Executamos um cluster com 35 milhões de documentos com tamanho total de índice em torno de 300 GB x 2, pois todos os índices são replicados. Para suportar isso e um número muito grande de pesquisas, temos 4 nós, cada um com 24 núcleos, 48 GB de RAM e 1 TB de armazenamento com 10K discos em RAID10. Recentemente, aumentamos o tamanho do disco para garantir que tivéssemos mais espaço para a cabeça.

Para o seu caso, eu recomendaria mais RAM e mais disco. Você provavelmente pode economizar dinheiro em CPUs com esse volume de pesquisa.

O baixo volume de pesquisa realmente prejudica o desempenho, pois os caches (internos ao s / w usado e ao disco do SO) não serão aquecidos.

Espero que isso ajude, Paul

— Paulo
fonte

De que tipo de documentos você está falando? Histórico? Documentos reais?

— Manuel Rauber