Embora não fosse exatamente uma tarefa que me foi dada, tive que me recuperar de um tempo de inatividade forçado.
Eu costumava ser o SA de um site financeiro bastante grande. Sabíamos que nossos sistemas, por dentro e por fora, possuíam registro centralizado e ótimas ferramentas para filtrá-los.
De repente (naturalmente muito perto de um prazo), todos os celulares ficam loucos com mensagens de alerta. Verifique se o site está inoperante e todos os funcionários da SA descartam o que estão fazendo e começam a investigar.
Os logs do Apache estavam bons, o banco de dados não estava lançando nenhum erro e os caches estavam girando muito bem. A abundância de recursos disponíveis, a rede estava boa e nenhuma implantação recente.
10 minutos depois, descobri que um dos desenvolvedores havia acessado o site e adicionado um dado (); em um módulo obscuro relacionado à geração de páginas.
Em outras palavras, o software fez o que foi solicitado a fazer e não havia informações de log que ajudariam.
O GM da empresa que administrava o site surgiu com um sorriso enorme e disse que queria nos marcar. Eu disse a ele para desligar, não tocar em meus servidores de produção, que tínhamos grandes planos de recuperação de desastres, mas a incompetência de seu desenvolvedor garantiu que nenhum desses planos funcionasse.
Se ele quisesse verificar nosso tempo de resposta, ele deveria pelo menos ter discutido isso com a CTO e perguntado se poderia fazê-lo "algum tempo hoje" ou "esta semana". Dessa forma, ninguém ficaria chateado e não teríamos perdido tempo discutindo sobre isso.
Todo o evento foi um dos mais não profissionais que encontrei até agora.