Eu estive procurando em MTTF, MTBF, MTBR e MTBF os servidores HP Gen9 em execução em nosso ambiente de produção.
Raiz da minha pergunta, deve estar preocupado ou não.
Não consigo obter bons dados, pois cada servidor possui uma mistura de hardware.
Na minha última empresa, rodamos cerca de 2000 dell server r210 r410 r710. Eu diria que, em média, tínhamos cerca de 5 servidores por dia que apresentavam algum tipo de falha. Portanto, cerca de 0,25% do servidor ficou inativo e precisava substituir uma peça antes de poder ser usado novamente.
Minha última empresa, tudo foi configurado em um par HA, infraestrutura N + 2, para que não houvesse impacto na produção. Conseguimos substituir os servidores e continuar
No meu escritório atual, operamos 9 servidores (HP Gen9, 56 VM da Hyper-V), não mantemos muitas peças de reposição à mão e também o datacenter não é gerenciado; portanto, se algo morrer, precisamos dirigir cerca de 45 minutos para substituir qualquer coisa.
Meu CTO ou gerente de TI parecem estar preocupados, eles tiveram cerca de 2,5 dias de inatividade no ano passado, tenho aumentado a necessidade de agrupar os servidores, mas eles não vêem necessidade.
Existe algo errado ou bem aqui? Não tenho certeza do que fazer.
Sei que não é minha responsabilidade se algo acontecer está no CTO. Esta é uma empresa muito pequena, apenas CTO, Gerente de TI, eu (desenvolvedores de operações) e 1 técnico de help desk.
Sobre toda a experiência na execução de um ambiente de produção, é muito limitado, da maneira como muitas coisas são configuradas, que eu chamaria de nível muito júnior, nem meu CTO nem o gerente de TI sabiam muito sobre cluster antes de eu chegar lá. Eles estavam no meio de um projeto para configurar o DR sem HA, contra o qual eu me opus, mas perdi.