Tivemos uma interrupção bastante séria na semana passada, afetando vários serviços que nos tiraram do SLA junto aos clientes. Agora que tudo foi resolvido, estou conduzindo uma revisão post-mortem.
A partir desta revisão, gostaria de apresentar um documento interno que descreva a interrupção, seus efeitos, nossa resposta e a resolução. Quero criar um formulário bastante padrão para reutilização futura. Incluí meus pensamentos abaixo, mas que outros itens devem ser incluídos? Se este fosse um incidente relacionado à segurança, o que você adicionaria?
- Resumo Resumo do evento em nível executivo.
- Serviços afetados
- Impacto Qual foi o impacto em nossos usuários e SLAs? Houve um custo em dólares, transações perdidas, clientes perdidos etc.?
- Duração da interrupção Para cada serviço afetado, se houver variações
- Causa Incluindo causas primárias e secundárias
- Resolução
- Linha do tempo dos eventos Notificações, contato com fornecedores externos, notificações de clientes, respostas etc.
- Problemas com a nossa resposta As coisas não foram como planejadas com a nossa resposta à interrupção? Pessoas corretas notificadas? Os fornecedores cumpriram suas obrigações contratadas?
- Medidas preventivas a serem tomadas Como impedimos que essa interrupção ocorra novamente ou reduzimos seu impacto?
- Método de detecção Até que ponto detectamos essa interrupção e como melhoramos a detecção no futuro?
- Alterações a serem feitas em futuras respostas a interrupções
Tente manter as postagens com apenas um item e explicação, e essa postagem pode ser atualizada com as principais respostas votadas.