Estou procurando histórias divertidas de acidentes com administradores de sistemas que você já teve. Excluir o email do CEO, formatar o disco rígido errado etc.
Vou adicionar minha própria história como resposta.
Estou procurando histórias divertidas de acidentes com administradores de sistemas que você já teve. Excluir o email do CEO, formatar o disco rígido errado etc.
Vou adicionar minha própria história como resposta.
Respostas:
Diverti-me descobrindo a diferença entre o comando "killall" do linux (mata todos os processos correspondentes ao nome especificado, útil para parar zumbis) e o comando "killall" do solaris (mata todos os processos e interrompe o sistema, útil para parar o servidor de produção em no meio do horário de pico e fazendo com que todos os seus colegas de trabalho riam de você por uma semana).
hostname -f
no Linux imprime o nome de domínio totalmente qualificado no Linux. No Solaris, ele define o nome do host como -f
.
Eu era responsável pelo nosso proxy corporativo da Web, que na época era o produto da Netscape. Enquanto brincava nos formulários de administração (era uma interface baseada na Web), havia um botão grande (e eu juro que era vermelho) que dizia Excluir banco de dados do usuário . Não tem problema, pensei. Vamos ver quais são as opções que me oferecem quando eu acerto isso. Certamente haverá um prompt de confirmação se não houver opções.
Sim, sem confirmação. Sem opções. Não há mais usuários.
Então, fui até o Sr. Solaris Sysadmin e disse que eu estava precisando desesperadamente de uma restauração da fita à qual ele respondeu: "Eu não apoio essa caixa".
"Uh, venha novamente", eu respondi.
"Eu não apoio essa caixa. Está na minha lista de coisas para adicionar à rotação de backup, mas ainda não cheguei a isso".
"Este servidor está em produção há quase 8 meses!" Eu gritei.
encolher de ombros , ele respondeu. "Desculpa."
Há muitos anos, a empresa em que trabalhei tinha um cliente que executava um backup noturno do NT 4.0 Server em uma unidade Jaz (como um disco zip de alta capacidade).
Configuramos um arquivo em lotes, que foi executado como um trabalho agendado da noite para o dia. Todas as manhãs, eles coletavam o disco das últimas noites da unidade e, antes de partirem, inseriam o próximo disco na sequência.
De qualquer forma, o arquivo em lotes tinha a seguinte aparência (a unidade Jaz era a unidade F :).
@echo off
F:
deltree /y *.*
xcopy <important files> F:
De qualquer forma, uma noite eles esqueceram de colocar o disco. A alteração na unidade F: falhou (nenhum disco na unidade) e o arquivo em lotes continuou em execução. O diretório de trabalho padrão para o arquivo em lotes? C :. Primeira vez que vi uma rotina de backup destruir o servidor que estava fazendo backup.
Aprendi um pouco sobre administração de sistemas (e manipulação de exceções) naquele dia.
Jim.
PS: A correção? "deltree / y F: \ *. *".
root @ dbhost # find / -name core -exec rm -f {} \;
Eu: "Você não pode entrar? OK. Qual é o nome do banco de dados?"
Cu: "Núcleo".
Eu: "Oh".
Adoro a maneira como todos qualificam sua história como "quando eu era jovem / verde", como se nunca mais fizessem isso de novo. Acidentes podem acontecer até para os profissionais mais experientes.
Meu pior momento é tão ruim que ainda tenho palpitações pensando nisso ...
Tínhamos uma SAN com dados de produção. Crítico para a empresa. Meu "mentor" decidiu estender uma partição para liberar espaço em disco. Você pode ver para onde isso está indo? Ele disse que o software SAN poderia fazer isso ao vivo, em horas de produção e ninguém notaria. Os alarmes deveriam ter começado a tocar, mas estavam visivelmente silenciosos. Ele disse que fez isso "muitas vezes antes" sem problemas. Mas aqui está a coisa - ele me fez clicar no botão que dizia "você tem certeza?"! Como eu era novo na empresa, presumi que esse cara sabia do que estava falando. Grande erro. A boa notícia foi que o LUN foi estendido. As más notícias eram ... bem, eu sabia que havia más notícias quando comecei a ver erros de gravação de disco na caixa do Windows.
Estou feliz por estar usando calça marrom.
Tivemos que explicar por que 1 TB de dados desapareceu na hora do almoço. Foi um dia muito, muito ruim.
Na verdade, é um bom princípio - antes que você faça alguma dúvida, imagine ter que explicar à gerência se algo der errado. Se você não consegue encontrar uma boa resposta para explicar suas ações, não faça isso.
O Nagios nos enviou um ping uma manhã quando o horário comercial começou a dizer que não era possível conectar-se a um servidor não crítico. Ok, caminhe para a sala do servidor. É um servidor antigo, um Dell 1650 adquirido em 2002, e sabíamos que os anos 1650 estavam tendo problemas de hardware. O PFY apunhala o botão liga / desliga. Nada. Aperte-o novamente e mantenha-o pressionado por cinco segundos para 'forçar a ligação' ... o que substitui a proteção contra erros do BMC, pois sem um DRAC não há como examinar os logs do BMC sem ligar o chassi.
A máquina inicia o POST e depois morre novamente. Estou de pé sobre ele e digo: "Sinto cheiro de fumaça". Puxamos o servidor pelos trilhos e uma das fontes de alimentação fica quente, então o PFY o puxa e está prestes a fechar a caixa novamente. Eu digo: "Não, isso não é fumaça da fonte de alimentação, é fumaça da placa-mãe".
Abrimos o estojo novamente e procuramos a fonte do cheiro de queimado. Acontece que uma bobina de indutor e um capacitor explodiram algo no regulador de tensão da placa-mãe e pulverizaram cobre fundido e capacitor em tudo, causando um curto-circuito e fazendo uma grande bagunça.
A pior parte para mim foi reconhecer que havia fumado hardware suficiente para reconhecer a diferença entre o cheiro de uma placa-mãe queimada e de uma fonte de alimentação queimada.
Há três dias (sério), eu estava conectado remotamente a um servidor escolar, instalando o Service Pack 2 em um servidor de arquivos do Windows Server 2008.
Decidi agendar a reinicialização necessária tarde da noite, quando os professores não estavam logados para terminar seus boletins de final de ano. Eu digitei algo como:
às 23:59 "shutdown -r -t 0"
... o que pode ter funcionado bem.
Mas então eu me adivinhei. Minha sintaxe de 'desligamento' estava correta? Tentei ver a ajuda de uso digitando
desligamento / h
... e perdi instantaneamente minha conexão RDP. Em pânico, entrei no Google para obter a sintaxe. Uma pesquisa rápida revelou que a versão de desligamento do Server 2008 inclui uma opção / h, que (como você deve ter adivinhado) hiberna a máquina.
Os professores começaram a me ligar em questão de minutos para informar que não podiam mais abrir ou salvar os boletins em que estavam trabalhando. Como eu estava fora do local e a sala do servidor estava trancada, tive que ligar diretamente para o diretor da escola e orientá-la no processo de ligar novamente a máquina.
Hoje eu trouxe biscoitos caseiros para todos como uma forma de desculpas.
/?
primeiro!
man shutdown
. Eu sei que não vou causar problemas com man
!
Em um trabalho anterior, tínhamos um ótimo sistema interno que registrava e arquivava cada correio que entrava, saía ou ficava na empresa.
Explodiu toda a sua caixa de correio? Sem problemas! Procurando uma correspondência que alguém lhe enviou uma semana / mês / ano atrás, mas você não consegue se lembrar de quem a enviou ou qual era o assunto? Sem problemas! Apenas enviaremos tudo de fevereiro para você em uma pasta especial.
Em algum momento, surgiu a necessidade de o CEO da empresa monitorar as correspondências entre um concorrente e um vendedor interno sob suspeita. Por isso, configuramos um script que era executado todas as noites e entregamos correspondências relevantes do dia anterior ao CEO. Sem problemas!
Cerca de um mês depois, surgiu a palavra de um problema urgente com mais de duas vezes. Parece que, enquanto o CEO lia a lista de emails enviados para $ OTHERCOMPANY, ele se deparou com este:
To: somebody@$OTHERCOMPANY
From: CEO
Subject: CEO has read your message (subject line here)
Naturalmente, sendo o CEO uma pessoa importante e tudo, ele estava ocupado demais para clicar em todas as caixas de diálogo "Enviar recibo de leitura" no Outlook e configurou seu cliente para apenas enviar todos eles. Uma das mensagens capturadas pelo filtro de monitoramento tinha uma solicitação de confirmação de leitura definida. Adivinha o que o Outlook fez? Certamente atrapalhou o monitoramento 'clandestino'.
Nossa próxima tarefa: adicionar regras ao filtro de email para bloquear os recibos de leitura de saída do CEO para essa empresa. Sim, era a maneira mais fácil. :)
Ahhh, o meu foi há cerca de 10 anos atrás, quando eu ainda estava molhando os pés. Tive a alegria de instalar backups de bateria em todos os computadores dos programadores. Eles também queriam que o software fosse carregado para avisar sobre queda de energia e desligado corretamente.
Então, configurei-o no meu computador para testar tudo primeiro, é claro, e garantir que tudo funcionasse. Portanto, desconecto o cabo de alimentação e a mensagem aparece na minha tela. "energia externa perdida, iniciando o desligamento do sistema".
Então pensei: Ei legal, funcionou. Mas, por algum motivo estranho, eu nem me lembro, ele enviou essa mensagem como uma mensagem de rede para que todos os mais de 200 computadores da empresa recebessem essa mensagem, onde mais de 100 usuários estavam programados.
Sim, fale sobre surtos em massa !!
Eu mantive minha cabeça baixa naquele lugar por um tempo!
Costumava usar o comando "sys-unconfig" nas máquinas Solaris para redefinir o serviço de nome da máquina, o endereço IP e a senha raiz. Eu estava em um sistema de usuários e entrei no servidor de instalação do edifício e procurei algo (como root), esquecendo que havia feito login em outra máquina (prompt "#" não descritivo)). Executei o comando "sys-unconfig".
# sys-unconfig
WARNING
This program will unconfigure your system. It will cause it
to revert to a "blank" system - it will not have a name or know
about other systems or networks.
This program will also halt the system.
Do you want to continue (y/n) ? y
Connection closed
#
Essa mensagem de "conexão fechada" se transformou lentamente em pânico ... em qual máquina eu estava conectado quando executei esse comando.
A pior parte disso não foi o momento difícil que meus colegas de trabalho me deram, mas fiz o mesmo um mês depois.
Eu tenho uma muito boa. É certo que era antes do meu tempo como administrador de sistemas, mas ainda relacionado à tecnologia, então imaginei que o adicionaria.
Naquela época, eu trabalhava como técnico de banda larga / satélite para a USAF. Tendo me graduado recentemente na escola técnica, me vi na Coréia do Sul. Logo após chegar à estação, surgiu a oportunidade de viajar para o sul com os "grandões", que estavam lá por um tempo e realmente trabalhavam em alguns equipamentos do mundo real (ou seja, `produção ').
Fui com a equipe e, como um técnico jovem e ansioso, estava mastigando um pouco, bastante empolgado com a perspectiva de colocar minhas mãos em um equipamento real que passava pelo tráfego militar de voz e dados ao vivo.
Para começar devagar, eles me entregaram um manual, voltaram-se para a seção de manutenção preventiva e me apontaram na direção de quatro racks cheios de vários grandes multiplexadores digitais. O equipamento era fácil, havíamos coberto o mesmo equipamento na escola de tecnologia.
Primeira página do manual lida; "Aplique energia ao multiplexador digital. Coloque os dois interruptores traseiros na posição ON (ligado) e aguarde a inicialização do equipamento e inicie os testes". Eu olhei para cima e já havia energia APLICADA!
Eu estava em um dilema, com certeza. Sem saber como proceder, dei o melhor de mim, "Ummmm ... meio que perdi aqui", olhando para o veterano.
Ele olhou para mim e riu: "Não, não, está tudo bem. Você pode ignorar essa parte da lista de verificação". Então, quando ele notou o olhar no meu rosto, (desde que fomos ensinados na escola a NUNCA, NUNCA ignorava qualquer parte de uma lista de verificação, e era certa morte e destruição se alguém o fizesse), ele olhou seriamente para ele. cara e disse: "Ignore APENAS essa parte! Siga o resto, conforme a letra!"
Obedientemente, eu segui as instruções da MP em várias etapas, feliz como um molusco e orgulhoso por estarem deixando uma tecnologia tão baixa (embora inteligente) fazer esse trabalho importante.
Em algum lugar entre a quinta e a sexta lista de verificação de manutenção preventiva nesses enormes multiplexadores, comecei a perceber um aumento no nível de atividade ao meu redor. Os telefones estavam tocando, as pessoas estavam se movendo rapidamente. Olhares interrogativos estavam sendo trocados.
Finalmente, um grupo de pessoas correu até mim, liderado por um dos técnicos mais antigos que me derrubou.
"Ei! Estamos vendo ENORME interrupções no tráfego de dados e isolamos / rastreamos o caminho de volta aos racks em que você está trabalhando! Você está vendo algum estranho .."
(Naquele momento, ele foi cortado por outro dos solucionadores de problemas que havia percorrido o caminho para o primeiro grupo de multiplexadores em que eu estava executando as MPs.)
"PORCAS SAGRADAS! ELES DESLIGARAM! ELE ESTÁ DESLIGANDO-OS !!!!"
Em pouco tempo, observei enquanto eles corriam apressadamente o primeiro passo do manual: "Coloque os dois interruptores traseiros na posição LIGADO ..." Quando o técnico sênior terminou, ele se aproximou de mim e perguntou, incrédulo, o que eu estava pensando. desligando as peças críticas do equipamento.
Assustado, entreguei a ele a lista de verificação que eu estava seguindo, jurando que não havia me desviado. Que eu tinha seguido, "à letra", como ele havia instruído.
Depois de um tempo, ele riu e apontou onde estava o problema.
No manual, a etapa FINAL na lista de verificação de manutenção preventiva foi:
"Grave a leitura final da sonda, limpe o painel frontal, remova toda a poeira e partículas e coloque os dois interruptores traseiros na posição OFF".
:)
É um tipo de acidente com administradores de sistemas. Na medida em que os administradores de sistemas ocasionalmente precisam transportar fisicamente um grande número de máquinas do ponto A ao ponto B (onde A e B aparentemente sempre estão separados por vários lances de escada em um prédio sem elevador). Na n-ésima viagem do dia, parei para descansar três lances acima do nível de carregamento do porão para conversar com alguém descendo, apoiando a torre de tamanho normal com a estação que eu estava arrastando no corrimão interno da escada aberta e ... bem, você adivinhou ... perdi um pouco o controle. Mergulhou direto no poço e, quando chegou ao fundo, er ... não tanto com a funcionalidade desse! Total de peças recuperáveis: duas unidades de RAM, uma unidade de disquete e uma placa ISDN (Deus abençoe o pessoal da engenharia da Hermstedt!). Todo o resto rachado,
Pela graça de Deus, ninguém estava andando por baixo, o que, felizmente para mim, foi o primeiro do meu chefe, então eu tenho que manter meu emprego. Senti-me muito doente por mais ou menos uma hora.
Moral: a gravidade sempre vence!
Eu estava recarregando um sistema para alguém e, durante o processo de backup manual, perguntei a ele a pergunta "Você tem outros programas que usa?" e "Há mais alguma coisa importante que você faz no computador?"
Ele disse "não" VÁRIAS vezes.
Fiquei convencido e formatou a unidade.
Cerca de 30 minutos depois, ele disse "oh meu deus" e colocou as duas mãos na cabeça.
Acontece que ele estava trabalhando em um roteiro de livro por mais de 10 anos em um programa especializado. Isso foi quando os programas usados para salvar dados do usuário em seu diretório de arquivos de programa e eu os perdi.
Whhhhooooops.
Ele não estava bravo comigo, mas era um sentimento sóbrio.
Meu favorito pessoal não é realmente meu, e estou MUITO feliz com isso. Dê uma olhada aqui.
Isso não aconteceu comigo, mas ...
Eu estava trabalhando em uma empresa que fabricava softwares executados em máquinas Linux fornecidas pelo cliente. Essencialmente, nós 'assumimos' as máquinas, as configuramos completamente de acordo com nossas especificações e fazemos todo o gerenciamento e monitoramento. Essencialmente, éramos uma equipe de 10 a 15 administradores de sistema, gerenciando milhares de servidores para centenas de clientes. Erros estavam prestes a acontecer.
Um de nossa equipe encontrou alguns problemas em um servidor (um backup, acredito) e decidiu que ele deveria executar o fsck nele. Ele interrompeu todos os serviços relevantes, certificou-se de que o sistema recebera backups recentemente e executou o fsck, mas queixou-se de que o sistema de arquivos estava montado. Como éramos remotos e não tínhamos acesso remoto (DRAC, OIT etc.), ele não podia fazer o fsck, mas tinha certeza de que era seguro fazê-lo com o sistema de arquivos montado, se você fosse cuidadoso.
Ele decidiu tentar sozinho executando fsck em sua partição raiz, com resultados previsíveis - ele corrompeu sua partição raiz e não pôde mais inicializar.
Confuso, ele foi falar com o líder da nossa equipe. O líder disse que tinha certeza de que você não poderia fazer isso, e o membro da equipe disse 'Claro que você pode!', Pegou o teclado do líder e mostrou a ele que você podia - executando fsck na partição raiz do líder. Que corrompia completamente a partição raiz do HIS.
Resultado final? Nenhum dado do cliente foi perdido, graças ao teste do membro da equipe. Dois dias de produtividade dos funcionários foram perdidos, mas isso valeu muito, muito menos que os dados na máquina do cliente. E para o registro? Você pode executar o fsck em uma unidade montada, mas apenas para verificar os dados. Não para repará-lo. Esse foi o erro do membro da equipe.
-
Para adicionar minha própria história, eu trabalhava na mesma empresa e tentava redefinir uma senha de usuário. Nosso sistema se recusou a permitir que eu a definisse com a senha que ele precisava, porque rastreava hashes de senha antigos e se recusava a permitir que você duplicasse a senha. O mecanismo era simples: validava sua senha contra o hash mais recente no banco de dados.
(E, para o registro, precisava ser a senha antiga porque era uma conta compartilhada e garantir que todos soubessem que a nova senha era impraticável)
Decidi simplesmente entrar no banco de dados dos usuários e excluir os novos registros para que usassem o antigo. É tudo apenas SQL (executando uma versão antiga do Sybase), por isso é fácil. Primeiro, eu tive que encontrar os registros:
SELECT * FROM users_passwords WHERE username='someuser';
Encontrei o antigo recorde que ele queria manter; havia mais dois na frente dele. Eu decidi ser inteligente e apenas excluir algo mais novo do que o registro antigo. Observando o conjunto de resultados, vi que a senha antiga era o ID # 28 no banco de dados e as novas eram o ID # vários milhares (sistema muito ocupado). Isso é simples, todas as linhas antigas tinham> 28, então:
DELETE FROM users_passwords WHERE id > 28;
Não há nada pior do que fazer uma simples remoção de linha e ver '212.500 linhas afetadas'. Felizmente, tínhamos dois servidores de banco de dados mestre (com o ID do usuário), mas a Sybase (pelo menos, nossa versão) não suportava a replicação automática, portanto não eliminava automaticamente os registros antigos. Era uma questão trivial obter um despejo da tabela users_passwords e reimportá-lo. Ainda assim, um grande 'oh f ** k!' momento.
Outro dos meus favoritos:
Ao configurar um computador e uma impressora a laser local em um sistema, tive a brilhante idéia de conectá-los ao no-break do computador. Você já tentou imprimir em uma impressora a laser local quando está conectada a um no-break de mesa? Bem, se você não sabe, tende a puxar todos os amplificadores ... O que reinicia o computador ... E o trabalho de impressão nunca termina ...!
Sempre receba a ligação: ' Sempre que imprimo, ele reinicia o computador e não imprime !!! '?
Opa!
JFV
Instrução DELETE sem uma cláusula WHERE, no banco de dados de usuários ativos dos clientes.
Digitado kill 1
como raiz. init
e todos os seus filhos morreram. E todos os filhos deles. etc, etc. Opa.
O que eu pretendia digitar era kill %1
Depois que percebi o que fiz, corri para o painel de controle de uma máquina de classificação de fardos de lã GRANDE e apertei o botão de parada de emergência. Isso fez com que a máquina se rasgasse em pedaços, pois acabei de matar o software que a controlava.
Estávamos no meio de uma queda de energia e vimos que o no-break estava funcionando com 112% da carga configurada. Isso não era um problema, pois estávamos funcionando no gerador na época.
Então, saímos puxando cabos de energia de backup para reduzir o uso de energia naquele no-break (tínhamos dois, um muito maior que o outro). Chegamos ao comutador de rede que executava a sala do servidor (essa era a sala do servidor com todos os servidores internos da empresa, com o cliente enfrentando servidores em outra sala do servidor). O switch era um grande switch de classe empresarial com três fontes de alimentação. Como os suprimentos eram N + 1, precisávamos de apenas dois para executar o switch.
Pegamos um cabo e o puxamos para fora. Infelizmente para nós, os outros dois foram conectados a uma única régua de energia, que explodiu rapidamente quando a carga subiu nas duas fontes de alimentação que estavam conectadas a ela. O administrador de sistemas entrou em pânico e conectou o terceiro cabo. O switch tentou acionar, colocando toda a carga do switch na fonte de alimentação única. Em vez de a fonte de alimentação ser desligada, ela explodiu em uma chuva de faíscas a menos de 30 cm do meu rosto, fazendo-me voltar para o rack de servidores.
Por instinto, tentei pular para o lado, mas infelizmente à minha esquerda havia uma parede e duas à minha direita era um cara muito grande de 6'4 ". Eu consegui pular sobre ele, ou possivelmente através dele ricocheteando. dos racks Compaq (aqueles com frentes de malha fina) sem colocar um todo no rack e sem tocar no cara das instalações.
Em algum momento da minha carreira, uma investigação legal na empresa em que eu estava trabalhando exigia que todos os emails fossem mantidos "deste dia" em diante, até que seja informado o contrário. Após cerca de um ano armazenando backups completos diários de nosso ambiente de troca (1 TB por noite), começamos a ficar sem espaço.
Os administradores da troca sugeriram que mantivéssemos apenas cada oitava cópia do e-mail. Para fazer isso, pedimos que restaurassem um dia dos bancos de dados do Exchange, extraíssem o email necessário (pessoas específicas sinalizadas para investigação) e o arquivassem novamente. Eles faziam isso a cada oitavo dia de email para todos os nossos backups. O oitavo dia foi escolhido porque a troca tinha um conjunto de parâmetros em que "itens excluídos" são mantidos no banco de dados por 8 dias.
Depois que eles terminavam cada arquivo, eu voltava e excluía os backups mais antigos do que eles haviam arquivado.
O TSM não tem uma maneira fácil de fazer isso; portanto, você deve excluir manualmente os objetos do banco de dados de backup.
Escrevi um script que excluiria todos os backups anteriores a alguma data, por meio de um cálculo de data usando a diferença entre hoje e a data em questão. Em algum dia, tive que excluir cerca de um mês de backups, exceto quando fiz o cálculo da data, digitei um erro de digitação e digitei a data como 10/07/2007 em vez de 10/10/2007 e executei o script. Eu apaguei um mês extra inteiro de dados, acidentalmente que fazia parte de um processo muito importante.
Depois disso, adicionei algumas etapas ao script para confirmar que você deseja excluir os dados e mostrar o que ele iria excluir ...
Felizmente, eles nunca usaram nenhum dos dados que trabalhamos tanto para preservar e ainda tenho meu trabalho.
Após um longo dia ou desempenho, rastreando e ajustando um grande mainframe (você conhece as bestas que demoram algumas horas antes de todos os sites de backup concordarem que ele é realmente inicializado novamente e totalmente sincronizado) Eu estiquei meus dedos, digitei desligamento satisfeito -p agora no prompt do meu laptop, fechei a tampa e puxei o cabo serial para fora do mainframe, com a antecipação de um bom copo de cerveja gelada.
De repente, ouço o som ensurdecedor da rotação do mainframe enquanto meu laptop ainda exibe o X.
Enquanto esperava a máquina ficar totalmente on-line novamente, decidi que tinha tempo para fazer com que minha ACPI funcionasse no meu laptop, para nunca ficar tentada a desligar meu laptop.
Este acidente não aconteceu ... mas vale a pena mencionar:
Fui enviado para um data center muito usado para realizar testes de largura de banda em um novo circuito. Cheguei à sala demarcada / IDF, encontrei um local em um dos racks do meu roteador de teste, fiz minhas conexões e iniciei os testes. Infelizmente, falhei completamente em perceber que o roteador de borda em produção não estava exatamente exatamente no próximo rack (quase no mesmo nível), mas que também era da mesma marca e modelo do meu roteador de teste.
Quando o teste foi concluído, comecei a pressionar o botão liga / desliga na posição desligado (... imagine em câmera lenta ...) e, juro, quando estava aplicando pressão, percebi que o roteador era meu. desligar era o que estava em produção. Meu coração parou e eu quase ... bem, use sua imaginação.
Deixei o MDF do centro de dados parecendo assustado e pálido, mas ao mesmo tempo feliz por ainda ter um emprego!
Excluí a conta de alguém por engano, misturei os nomes com os que eu deveria excluir. Opps
A parte legal é que eles nunca souberam o que aconteceu. Recebi a ligação que eles não conseguiam acessar, o centavo caiu sobre a conta que eu excluí.
Enquanto estava no telefone com eles, recriei rapidamente a conta deles, reconectei a caixa de correio antiga (felizmente o Exchange não exclui as caixas de correio imediatamente) e apontei-a de volta para os arquivos de usuário antigos.
Então eu os culpei por esquecer a senha que eu havia redefinido para eles :)
Instalei acidentalmente um arquivo tar.gz na minha caixa do Gentoo Linux no lugar errado e deixou arquivos em todo o lugar. Deve ter sido por volta de 1999, 19 na época (obrigado pelos comentários abaixo)
Sendo o nerd que sou, decidi tentar me tirar do trabalho de passar manualmente por cada arquivo.
Então eu tentei:
tar --list evilevilpackage.tar.gz | xargs rm -rf
Não demorou muito tempo para perceber que o tar também listava todos os diretórios que o programa estava usando, os incluídos eram '' / usr, / var, / etc '' e alguns outros que eu realmente não queria.
CTRL-C! CTRL-C! CTRL-C! Muito tarde! Tudo se foi, reinstale o tempo. Felizmente, a caixa não continha nada de importante.
Como parte pequena de minha vida anterior, administrei o servidor de arquivos da empresa, uma caixa de netware 4:11. NUNCA precisava de nenhuma entrada, mas, se precisasse, você abriu uma janela do console remoto.
Acostumado a usar o DOS o tempo todo, quando terminava, naturalmente digitava "Sair". Para o Netware, "exit" é o comando para desligar o sistema operacional. Felizmente, ele não permitirá que você desligue, a menos que você primeiro "desligue" o servidor. (Torne-o indisponível para a rede / clientes) Portanto, quando você digita "Exit" no console, ele diz: "Você deve primeiro digitar" Abaixo "antes que você possa sair"
Pergunte-me quantas vezes eu 1: digitei "exit" na sessão do console e 2: Obedientemente digitei "Down" e depois "Exit" para que eu pudesse "terminar o que estava tentando fazer"
E então o telefone começa a tocar ...
ri muito
Outra história que não aconteceu (ufa):
Estávamos fazendo backups incrementais religiosamente todos os dias em uma unidade de fita.
Por acaso, escrevemos uma fita contendo dados para enviar a outra pessoa. Eles disseram 'não podemos ler sua fita'. De fato, nós também não. Ou qualquer fita de fato.
Compramos outra unidade de fita e prendemos a respiração até a instalar.
Moral da história. Sempre certifique-se de testar seus backups.
O último lugar em que trabalhei, meu colega de trabalho teve seus filhos com ele na sala do servidor (por quê? Não tenho idéia!).
Ele se certificou de que eles estavam longe dos servidores e explicou a seu filho de 5 anos que ele não deveria tocar em QUALQUER dos servidores e, ESPECIALMENTE, em nenhum dos interruptores.
Na verdade, ele os tinha bem perto da porta ... (você pode ver para onde isso está indo ...?)
O garoto não tocou em nenhum dos botões de energia do servidor ... Não, isso seria muito fácil de explicar. Em vez disso, ele apertou o GRANDE BOTÃO VERMELHO que estava perto da porta ... O botão que desliga a energia da SALA DE SERVIDORES INTEIROS !!!
As linhas telefônicas começaram imediatamente a se perguntar por que Exchange, Servidores de Arquivos etc. não estavam disponíveis ... Imagine tentar explicar ISSO ao CEO!
-JFV
Uma vez tive uma briga com o software de monitoramento da APC UPS. Sendo uma empresa pequena, tínhamos alguns no-breaks pequenos e vários servidores foram configurados para monitorá-los. A maioria dos servidores era Linux, mas alguns estavam executando o Windows e, portanto, eram os usados porque o software APC é apenas para Windows.
No entanto, o software da APC na época era codificado para assumir que o no-break com o qual está falando também está ligando o PC que está sendo executado! Este não era o caso deste servidor, mas descobri que era tarde demais para pedir para ele parar. Infelizmente, o programador líder estava demonstrando o produto da empresa para um parceiro - era um aplicativo baseado na Web, rodando no mesmo servidor que eu não queria que o software da APC fosse desligado ...
Eu estava dando um novo sysadmin um tour de um aplicativo Service Manager. Eu disse "se você precisar interromper esse serviço, clique nesse botão, mas nunca o fará durante o dia". Você nunca acreditaria em como o botão do mouse dela era sensível!
Dois minutos depois, o serviço havia reiniciado e ninguém parecia notar.
Tropeçando em um servidor em torre preso atrás de um rack e batendo na minha cabeça na parte de trás do roteador principal da Cisco no caminho para baixo. Revelando, assim, quão frouxamente os cabos de alimentação estavam realmente assentados nas fontes de alimentação na parte frontal do Catalyst 6500 .
Sim. Agora temos um capacete de segurança na sala dos servidores. Com o meu nome nele.