Após meses de negligência, chamas por email e batalhas de gerenciamento, nosso administrador de sistema atual foi acionado e entregue "as credenciais do servidor" para mim. Essas credenciais consistem em uma senha root e nada mais: sem procedimentos, sem documentação, sem dicas, nada.
Minha pergunta é: supondo que ele tenha deixado as armadilhas para trás, como eu normalmente tomo conta dos servidores com o menor tempo de inatividade possível?
Aqui estão os detalhes:
- um servidor de produção localizado em um farm de servidores no porão; ubuntu server 9.x provavelmente, com patches grsec (boatos que ouvi da última vez que pedi ao administrador)
- um servidor interno que contém toda a documentação interna, repositório de arquivos, wikis, etc. Novamente, servidor ubuntu, com alguns anos de idade.
Suponha que os dois servidores estejam corrigidos e atualizados, portanto, prefiro não tentar invadir meu caminho, a menos que haja uma boa razão (isto é, que possa ser explicada à gerência superior).
O servidor de produção possui alguns sites hospedados (padrão apache-php-mysql), um servidor LDAP, um conjunto / servidor de e-mail ZIMBRA e, tanto quanto eu posso dizer, algumas estações de trabalho de vmware em execução. Não faço ideia do que está acontecendo lá. Provavelmente um é o mestre LDAP, mas esse é um palpite.
O servidor interno possui um wiki / cms interno, um escravo LDAP que replica as credenciais do servidor de produção, mais algumas estações de trabalho vmware e backups em execução.
Eu poderia simplesmente ir ao administrador do farm de servidores, apontar para o servidor, dizer a eles ' sudo
desligue o servidor, por favor', fazer login no modo de usuário único e seguir o meu caminho. O mesmo para o servidor interno. Ainda assim, isso significaria tempo de inatividade, transtorno da gerência, o velho administrador de sistemas me revirando dizendo 'vê? você não pode fazer o meu trabalho 'e outros incômodos, e o mais importante é que eu teria que perder potencialmente algumas semanas de tempo não remunerado.
No outro extremo do espectro, eu poderia fazer login como root e inch através do servidor para tentar entender o que está acontecendo. Com todos os riscos de provocar surpresas deixados para trás.
Estou procurando uma solução no meio: tente manter tudo funcionando como está, enquanto entenda o que está acontecendo e como, e o mais importante, evitando acionar qualquer armadilha deixada para trás .
Quais são as suas sugestões?
Até agora, pensei em 'praticar' com o servidor interno, desconectar a rede, reiniciar com um CD ao vivo, despejar o sistema de arquivos raiz em uma unidade USB e carregá-lo em uma máquina virtual isolada e desconectada para entender a maneira antiga do sysadmin de pensando (a-la 'conheça seu inimigo'). Poderia fazer o mesmo feito com o servidor de produção, mas um despejo completo faria alguém perceber. Talvez eu possa simplesmente fazer login como root, verificar o crontab, verificar o .profile quanto a quaisquer comandos iniciados, despejar o lastlog e o que vier à mente.
E é por isso que estou aqui. Qualquer dica, por menor que seja, seria muito apreciada.
O tempo também é um problema: pode haver gatilhos acontecendo em algumas horas ou em algumas semanas. Parece um daqueles filmes ruins de Hollywood, não é?