Antes de tudo, a disponibilidade total ou o tempo de atividade de um cluster depende de quão grande parte do cluster é necessária para estar ativa para que todo o cluster seja considerado 'ativo'.
- Uma máquina funcionando é suficiente? Isso significa que qualquer máquina pode suportar a carga total, se necessário.
- Todos eles precisam estar ativos ao mesmo tempo? Ou seja, não há redundância.
- Ou talvez dois em cada três online sejam suficientes? Isso permitiria uma carga de trabalho maior que o primeiro caso.
Como você descobriu, os dois primeiros casos são bastante simples de calcular. Deixe a probabilidade de um único servidor estar online a qualquer momento p = 0,95. Agora, para três servidores, a probabilidade de que todos estejam online ao mesmo tempo é p 3 = 0,857375.
No caso oposto, em que pelo menos uma máquina deve estar ativa em um determinado momento, é mais fácil calcular, invertendo o problema e observando as probabilidades de as máquinas estarem offline . A probabilidade de uma única máquina estar offline é q = 1- p = 0,05 e, portanto, a probabilidade de que todas elas estejam inativas ao mesmo tempo é q 3 = 0,000125, fornecendo a probabilidade 1- q 3 = 1- (1- p ) 3 = 0.999875 que pelo menos um está ativo.
O caso 2 de 3 é um pouco mais difícil de calcular. Existem quatro situações possíveis em que pelo menos dois de três servidores estão ativos. 1) ABC está ativo, 2) AB está ativo, 3) AC está ativo, 4) BC está ativo. As probabilidades para todos estes são, respectivamente, ppp , PPQ , PQP e QPP . Como os casos são disjuntos, as probabilidades podem ser somadas, resultando em um total A = p 3 + 3 p 2 q = 0,992750.
(Isso pode ser expandido para mais máquinas. Os fatores são os coeficientes binomiais bem conhecidos , portanto, contar os diferentes casos manualmente funciona principalmente como um exercício.)
Obviamente, cálculos como esse são muito mais fáceis de lidar usando um programa de computador pronto ... Pelo menos um calculador on-line pode ser encontrado aqui:
http://stattrek.com/online-calculator/binomial.aspx
Entrando os valores de entrada: probabilidade de sucesso = 0,95, número de tentativas = 3, número de tentativas = 2, obtemos o resultado "Probabilidade acumulada: P (X ≥ 2) = 0,99275". Alguns outros valores relacionados também são fornecidos, e a ferramenta online também facilita a reprodução com outros números.
E sim, todas as opções acima pressupõem que os servidores falhem de forma independente, ou seja, a) eu ignorei quaisquer problemas que afetassem o cluster como um todo; b) não há nada como o envelhecimento de componentes que tornaria provável a falha dos servidores em ou quase ao mesmo tempo.