Como você se refresca quando o sistema de produção cai? [fechadas]


26

Isso aconteceu com a maioria de nós ...

Você vem trabalhar um dia. Tudo parece normal - o sol está brilhando, os pássaros estão cantando, mas você percebe algumas coisas estranhas no caminho para o trabalho que lembram o gato déjà vu na Matrix.

Você entra no escritório e há muitos telefones tocando - mas pode ser que eles estejam fazendo uma nova promoção de vendas. Você se instala quando nota uma nuvem negra pairando sobre você.

Demora alguns momentos, mas você reconhece que a nuvem é seu chefe. Geralmente ele verifica você todas as manhãs com o seu "Soooo Peeeeter, que tal esses relatórios de TCP / IP?" rotina, mas hoje ele esqueceu tudo sobre maneiras comuns e invadiu rudemente o seu espaço pessoal. Não há "bom dia", apenas babos, grunhidos e xingamentos. Ele lembra um neandertal que está tentando se afastar de um tigre de dentes cibernéticos, medo e pânico, tudo comprimido em uma bola apertada. Você tenta decifrar o novo idioma que ele criou desde ontem e começa a entender que algo ruim aconteceu da noite para o dia - o sistema de produção caiu.

Agora, seu sistema geralmente é usado pelos clientes durante o horário comercial das 9 às 5 horas, mas, por qualquer motivo, você não recebeu nenhum alerta em seu sinal sonoro (para pessoas com menos de 30 anos - um sinal sonoro era como um telefone celular que só podia tocar e dizer quem bipou você). Você precisará se lembrar de cobrar da próxima vez.

Agora são 8h45 e o sistema DEVE estar em funcionamento às 9h. A cada 10 segundos, seu chefe solta outra maldição que lhe comunica que outro cliente está tendo problemas para entrar no sistema. Além disso, vários gerentes de conta agora estão passando o mouse sobre seu chefe, tentando fazê-lo entender como os clientes estão realmente sofrendo.

Todo mundo depende de você para ativar o sistema o mais rápido possível e, ao mesmo tempo, está dificultando seu progresso, distraindo você constantemente.

Como você se refresca em uma situação como essa?


34
Etapa 1: Componha uma postagem de 300 palavras em programmers.stackexchange.
Kubi

8
Não estou dizendo que está acontecendo agora. Espere, deixe-me verificar ...
Mag20

1
Esse é um problema exclusivo dos desenvolvedores? Se algo pelo qual você é responsável não está funcionando, você precisa ser capaz de lidar com a pressão, independentemente do que seja essa "coisa".
ChrisF

1
Descobri que, em minha própria experiência, pouquíssimas empresas de software, grandes e pequenas, realizam qualquer exercício de recuperação de desastres. Eu colocaria isso para o seu chefe. Se você faz um exercício, sabe o que esperar e pode ter uma ideia dos tempos de resposta. Você também pode avaliar se algum dos processos pode ser automatizado. O que acontece se você perder energia? O que acontece se um incêndio começar no escritório, você tem um local externo? Seus servidores estão hospedados internamente ou externamente, etc. Realmente, você precisa enfatizar a implementação de um plano de contingência.
Desolate Planet

3
Parece o início de uma entrada no TheDailyWTF!
Grant Palin

Respostas:


43

Na situação, peça ao seu chefe para ajudá-lo, mantendo todas as outras pessoas afastadas de você (o que lhe dá algo para fazer em outro lugar).

Quando você voltar a funcionar, peça ao seu chefe uma reunião para avaliar e estabelecer procedimentos para evitar que isso aconteça novamente.


1
+1. Exercícios de recuperação de desastres são boas maneiras de avaliar reações e tempos de resposta. Pena que não vejo o suficiente feito.
Desolate Planet

@DP yah, mas não podemos fazer isso porque isso significa que as pessoas e os equipamentos não estão disponíveis para emergências reais enquanto a perfuração está em andamento (sim, eu ouvi esse argumento mais de uma vez). É claro que se houvesse número suficiente de pessoas e equipamento, você poderia treinar uma equipe em um set, enquanto o outro está de plantão ...
jwenting

@jwenting soa como economizar no alarme de incêndio.

9

A primeira coisa a fazer é remover as distrações o mais educadamente possível. Ninguém pode trabalhar com alguém que fala mal do seu ouvido sobre o quão ruim é para seus clientes. É claro que isso é mais fácil dizer do que fazer se o seu chefe é um maníaco, mas se for esse o caso, você pode considerar encontrar outro emprego de qualquer maneira.

Em seguida, faça uma avaliação rápida da perda real que o erro está causando e como (se houver) pode ser mitigada rapidamente. Com um pouco de prática, você também pode fazer uma verificação rápida nos arquivos de log, necessários para formar um plano de ação.

Se o problema for complexo, concentre-se na parte mais grave. Pense dois ou três passos à frente antes de entrar em ação. Além disso, certifique-se de saber como desistir de qualquer plano antes de agir.

E o mais importante: não entre em pânico!


7

Situações como essa são comuns em sistemas de controle industrial. A linha de produção cai no meio da noite, a empresa normalmente está perdendo centenas, ou mesmo milhares, de dólares por minuto , e eles estão olhando para você para resolver o problema. Você lida com isso assim:

  1. Explique a eles o que você sabe
  2. Explique o que você não sabe (mas precisa saber para resolver o problema)
  3. Explique como você vai descobrir o que não sabe
  4. Faça uma estimativa de quanto tempo levará (use um intervalo)
  5. Ignore tudo ao seu redor enquanto se concentra em seguir seu plano

6

A primeira coisa é ter praticado repetidamente a recuperação de desastres (sem pessoas por cima do ombro), para que você saiba exatamente quais as etapas necessárias para diagnosticar e corrigir o problema sem precisar recorrer a perguntas sobre o SO para descobrir o que fazer. Depois de se sentir confiante em suas habilidades de recuperação, a pressão e o estresse são muito menores.

O próximo passo é tirar as pessoas do seu cabelo enquanto você trabalha. Seu chefe quer algo com o qual ele possa ir. Dê a eles algumas informações sobre o que você pretende fazer e quanto tempo pode levar a fazer e, em seguida, relatórios regulares de progresso, especialmente se você encontrar algo que signifique que levará muito mais tempo do que você lhes disse. Sim, os relatórios de progresso levam muito tempo para consertá-lo, mas os chefes e os usuários que passam o mouse demoram ainda mais tempo. Eu, eu vou para os relatórios de progresso de cada vez. Quando tiverem certeza de que você os manterá atualizados, confiarão em você para fazer mais seu trabalho e deixarão você sozinho.

Se os usuários ficarem bloqueados por algum tempo, envie um e-mail para eles, se for uma opção ou publique um aviso no site, dizendo que o site está em manutenção e quando deve tentar novamente. (Essa é possivelmente uma tarefa que você pode dar ao seu chefe para encontrar alguém para mantê-lo fora do seu cabelo.) As pessoas ficam menos irritadas por não conseguirem fazer login quando sabem que alguém está trabalhando no problema. Quando as coisas forem corrigidas, se você enviou um email, envie um email para o mesmo grupo para informar que foi corrigido. Não sei dizer quantas vezes vi pessoas esquecerem isso e os usuários ainda pensam que não podem fazer login quando podem. O objetivo não é apenas levantar as coisas, mas fazer as pessoas trabalharem com o sistema novamente.

Respire profundamente (respirações profundas são calmantes) e mergulhe no problema. É bom ter as coisas que você precisa fazer anotadas em algum lugar, porque em situações de emergência, às vezes, as sinapses do seu cérebro não extraem informações tão rapidamente quanto o normal. Você não quer parecer um idiota murmurando: "Eu sei que temos um tronco, onde diabos está?"

Se você trabalha em um sistema em que oferece suporte a sistemas de produção, é melhor ser o tipo de pessoa que reage bem em situações de emergência em geral. Não tenho certeza se você pode aprender isso realmente. Se alguém montando um cavalo na sua frente caiu (um exemplo não tão aleatório da minha vida) e estava deitado sangrando no chão, você é o tipo de pessoa que fica ali com a boca aberta ou é o único quem chama a ambulância, coloca a bandagem de pressão no sangramento e instrui alguém a pegar o cavalo? Se você é o primeiro tipo de pessoa, talvez essa não seja a linha de trabalho correta para você.


2

Diga a eles que esse é um bom motivo para você precisar de um servidor de backup e, com isso, quero dizer um segundo servidor que é executado da mesma forma que o principal, que pode ser alternado imediatamente se o primeiro for desativado.


Vi um servidor de backup ativado e o mesmo problema que o servidor principal. Dobrou o custo de hardware, aumentou o custo de configuração e foi um desperdício total de despesas. Se você estiver realizando um trabalho de alta disponibilidade, com certeza, mas precisará dimensionar corretamente seu hardware para o problema.
Scott Whitlock

um (extremo) exemplo do sistema de apoio a ser afectado pelo mesmo erro como o sistema primário é Ariane.5 Voo 501
Andre Holzner

2

Já é ruim o suficiente quando você está cercado por todos os lados por pessoas que estão com raiva de você por um problema que você criou, embora seja duas vezes pior quando é um problema que você não criou. Já aconteceu comigo mais de uma vez que o cliente acabou de configurá-lo mal, o que significa que a falha está na comunicação com o cliente (se a falha é o cliente por não escutar ou o profissional de marketing por não explicar bem, você nunca saberá).

Como você explica que eles estragaram tudo? Nunca é uma tarefa fácil, especialmente quando seu chefe está respirando pelo pescoço, porque ele não sabe nada melhor do que assumir que o cliente está sempre certo.

Então, como você se refresca em uma situação como essa? Lembre educadamente o seu chefe de que quanto mais cedo você começar a trabalhar, mais cedo esse problema será resolvido.


1

Vendo este evento como uma oportunidade para mostrar o quanto eu sou valioso (para os negócios), colocando o sistema de produção em funcionamento o mais rápido possível (se não antes das 9h ;-)).

Obviamente, esperando que eu não o quebrei ;-)


1
  • sh_t acontece
  • deve haver uma solução para um problema
  • se alguém no mundo conhece a solução, eu posso ser um deles
  • se não houver solução, o pânico não ajuda
  • novamente, sh_t acontece

0

Bem, definitivamente pergunte ao seu chefe que você voltará para ele quando resolver o problema; embora, nesse tipo de situação, a gerência normalmente envolva outras pessoas para resolvê-lo o mais rápido possível e depois resolva o problema com a pessoa "interessada" mais tarde ... Essa é a norma para qualquer empresa, independentemente do setor; quanto aos negócios, o cliente geralmente é o rei !!


0

Situações como essa me motivam mais a ter uma documentação completa de tudo e um plano completo para lidar com qualquer tipo de situação.

Mesmo que não possamos prever todos os problemas possíveis, mas podemos trabalhar por trás, sendo mais preparados, organizados e documentados.


1
Eu nunca resolvi um problema de produção (isto é, sistema inoperante) usando a documentação.
25411 Marcie

1
Não, mas se você precisar procurar algo, como especificações, definições de tabela, configurações do servidor, vale a pena documentá-lo.
Crevictum

0

Passei 8 anos fazendo manutenção em bombardeiros B52G em um alerta de 5 minutos para a Terceira Guerra Mundial. Isso coloca tudo em perspectiva para mim.

Um sistema de baixa produção é importante, mas não mata milhões ou bilhões de pessoas.

Descubra o que está errado, encontre a causa, conserte-a. Estabeleça comunicações claras com as pessoas importantes e mantenha-as informadas. Diga ao seu chefe o que você está fazendo e quando você será capaz de atualizá-lo pode impedir um fluxo contínuo de mensagens e conversas "já está consertado ainda".

faça um post-mortem completo e descubra como prevenir e limitar os efeitos de tais incidentes no futuro.

Se você estiver de plantão, ter uma bateria descarregada no celular ou no bipe é extremamente pouco profissional. Isso é um cenário geral, mas se isso acontecesse com uma pessoa que trabalha para mim, haveria uma discussão séria e, se fosse repetida, ela não estaria mais trabalhando para mim. Sim, eu sou durona.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.