Eu trabalho para uma empresa da Fortune 500 que se esforça para medir com precisão o desempenho e a disponibilidade de aplicativos de alta disponibilidade (ou seja, aplicativos que aumentam 99,5% com 5 segundos de navegação página a página). Consideramos o tempo de inatividade programado e não programado para determinar esse número de disponibilidade. No entanto, recentemente adicionamos uma CDN ao mix, o que meio que complica um pouco nossas métricas. A CDN agora lida com cerca de 75% do nosso tráfego, enquanto envia o restante para nossos próprios servidores.
Tentamos medir o que chamamos de "verdadeira experiência do usuário" (ou seja, nossos scripts de teste emulam um usuário típico clicando no aplicativo.) Esses scripts de monitoramento ficam fora da nossa rede, o que significa que estamos atingindo a CDN em cerca de 75% dos A Hora.
A gerência decidiu que adotamos o pior cenário possível para medir a disponibilidade. Portanto, se nossos servidores de origem estão tendo problemas, mas a CDN ainda está exibindo conteúdo, ainda temos problemas de disponibilidade. O mesmo vale para o contrário. Meu pensamento é que, enquanto a "experiência do usuário" for bem-sucedida, não devemos nos punir desnecessariamente. Afinal, existe uma CDN para melhorar o desempenho e a disponibilidade!
Só estou imaginando se alguém tem algum conhecimento de como outras empresas da Fortune 500 calculam seus números de disponibilidade. Olho para apple.com, por exemplo, uma loja que usa uma CDN que parece nunca estar inoperante (a menos que exista um grande anúncio de produto.) Seria ótimo ter alguns dados concretos, porque eu não acreditamos que precisamos nos machucar desnecessariamente nessas métricas. Nós estão tomando decisões de negócios com base nesses números.
No entanto, posso dizer que, como essas métricas são visíveis ao gerenciamento, os problemas são resolvidos e resolvidos rapidamente (leia-se: eliminamos a burocracia rapidamente). Infelizmente, como desenvolvedor, não quero que o gerente pense que o aplicativo está ativo ou inativo porque algum fator externo (isto é, CDN) está influenciando os números.
Pensamentos?
(Postei esta pergunta por engano no StackOverflow, desculpe-me antecipadamente pela postagem cruzada)