O que não pode ter redundância \ alta disponibilidade \ failover em um servidor?

Eu sei que algumas grandes empresas, como IBM, Amazon e governos, exigem um alto grau de disponibilidade e retenção de dados com seus servidores. Para conseguir isso, eles usam redundância. Minha pergunta é: quais componentes de um servidor (e cluster) geralmente são redundantes? Eu tinha trabalhado brevemente em tal sala de servidores e notei redundância em coisas como

suprimentos de energia
RAID foi usado com um mínimo de 10 discos e geralmente tinha hot spare
placas de rede
os cartões de rede em si tinham várias portas Ethernet
Backup UPS
gerador de diesel

O que mais é comum em redundância? Eu sei que um servidor inteiro pode ser espelhado. Qualquer componente de computador pode ser redundante, por exemplo, computadores possuem várias CPUs atualmente, mas eu acho que você não consideraria isso redundante, já que todos estão sendo usados de uma só vez, então a chance de falha é equivalente a todos eles, eu entendo está certo? A memória pode ser redundante?

Eu estaria interessado em ver estatísticas para qual parte de um servidor falha com mais freqüência.

— Celeritas
fonte

@PIMP_JUICE_IT copiou sua sugestão para o título

— Celeritas

Qualquer parte de um servidor pode ser redundante, mas pode haver compensações significativas que podem ser desmembramentos - dependendo do que você está fazendo -

O maior deles, em muitos casos, é o de sites redundantes - mesmo que você tenha dois PCs se eles estiverem distantes um do outro, a latência pode prejudicar seu IO.

Entrando nos dispositivos -

Você não pode realmente tornar a memória redundante, mas você pode usar a memória ECC para maior integridade.

Você não pode ter placas-mãe redundantes - isso realmente significa 2 computadores.

Você não pode realmente ter CPUs redundantes, embora você possa ter várias CPUs e desativar uma que não tenha desempenho.

A parte de um computador para falhar mais frequentemente é o disco rígido - por um longo caminho. Falhas de memória também são bastante comuns.

— davidgo
fonte

Por que você não pode ter redundância de memória? Como a memória é uma das coisas mais comuns a falhar (e quando ela faz todas as operações podem ser perdidas), parece valer a pena, ao contrário de outras coisas redundantes que não falham com tanta frequência, como a fonte de alimentação. Alguns dos servidores que vi tinham 4 PS redundantes que pareciam bobo considerando o ponto de falha é mais provável que seja RAM ou em outro lugar.

— Celeritas

A memória ECC (erro de correção de memória) fornece um nível de redundância, mas a memória protege contra o movimento de bits, em vez da memória RAM. Eu não sei como você praticamente implementaria memória redundante. Eu concordo que um servidor com 4 PSs redundantes é um exagero, mas provavelmente há alguma lógica nisso - possivelmente para ajudar a balancear uma fonte trifásica e ter uma quarta fonte monofásica no caso da fase 3 morrer completamente? As fontes de alimentação definitivamente falham, mas o mais importante é que a energia falha. Ter vários PSs reduz o estresse em um único PS também.

— davidgo

Certo, e eu acho que fontes de alimentação não são trocadas a quente se alguém precisar ser substituído.

— Celeritas

Na verdade, as fontes de alimentação do servidor podem ser trocadas a quente - desde que você tenha mais de 1, e o (s) suprimento (s) restante (s) pode (m) lidar com a carga.

— davidgo