MTTF, MTBF, MTBR e MTBF para HP ProLiant Gen9

Eu estive procurando em MTTF, MTBF, MTBR e MTBF os servidores HP Gen9 em execução em nosso ambiente de produção.

Raiz da minha pergunta, deve estar preocupado ou não.

Não consigo obter bons dados, pois cada servidor possui uma mistura de hardware.

Na minha última empresa, rodamos cerca de 2000 dell server r210 r410 r710. Eu diria que, em média, tínhamos cerca de 5 servidores por dia que apresentavam algum tipo de falha. Portanto, cerca de 0,25% do servidor ficou inativo e precisava substituir uma peça antes de poder ser usado novamente.

Minha última empresa, tudo foi configurado em um par HA, infraestrutura N + 2, para que não houvesse impacto na produção. Conseguimos substituir os servidores e continuar

No meu escritório atual, operamos 9 servidores (HP Gen9, 56 VM da Hyper-V), não mantemos muitas peças de reposição à mão e também o datacenter não é gerenciado; portanto, se algo morrer, precisamos dirigir cerca de 45 minutos para substituir qualquer coisa.

Meu CTO ou gerente de TI parecem estar preocupados, eles tiveram cerca de 2,5 dias de inatividade no ano passado, tenho aumentado a necessidade de agrupar os servidores, mas eles não vêem necessidade.

Existe algo errado ou bem aqui? Não tenho certeza do que fazer.

Sei que não é minha responsabilidade se algo acontecer está no CTO. Esta é uma empresa muito pequena, apenas CTO, Gerente de TI, eu (desenvolvedores de operações) e 1 técnico de help desk.

Sobre toda a experiência na execução de um ambiente de produção, é muito limitado, da maneira como muitas coisas são configuradas, que eu chamaria de nível muito júnior, nem meu CTO nem o gerente de TI sabiam muito sobre cluster antes de eu chegar lá. Eles estavam no meio de um projeto para configurar o DR sem HA, contra o qual eu me opus, mas perdi.

hyper-v hardware hp-proliant

— Anthony Fornito
fonte

HA custa dinheiro. Talvez eles pensem que não vale o dinheiro.

— Michael Hampton

Não se preocupe com os números MTTF, MTBF, MTBR e MTBF ... por que eles se aplicam às especificidades do seu ambiente?

Os servidores têm redundâncias internas e podem ser extremamente estáveis na produção. Mas isso depende do seu ambiente, da matriz / composição do disco, tipos de discos, quantidade de RAM, configuração da CPU, características térmicas, energia, etc.

O emprego de alguma forma de alta disponibilidade pode reduzir o potencial de tempo de inatividade e oferece a você um local para mudar suas cargas de trabalho em caso de falha.

Esta é uma questão de risco financeiro e operacional.

Talvez o custo incremental de passar de autônomo para cluster seja alto o suficiente para não fazer sentido nos negócios? Talvez os 2,5 dias de inatividade (~ 99,3% de disponibilidade) sejam bons o suficiente para sua operação. Você deve se concentrar na proteção externa e em bons backups. Todos os seus sistemas HP Gen9 estão sob garantia do fabricante de hoje, para que você não tem acesso a partes. Se você possui RAID, fontes de alimentação / ventiladores redundantes e energia estável, cobriu as áreas mais críticas.

Pense nisso a partir de uma perspectiva financeira e especifique os riscos, custos associados e tente criar um caso de negócios atraente para o que você deseja.

— ewwhite
fonte