Respostas:
Ainda estou, em 15 anos no setor, para iniciar uma nova função de consultoria em uma empresa e descobrir que ela possui uma "boa" infraestrutura. Essa é geralmente a razão pela qual sou chamado, para corrigi-los.
A causa usual dessa confusão são tomadores de decisão não técnicos que tomam decisões técnicas.
Fiz um trabalho há alguns anos realizando uma "avaliação" da infraestrutura de rede de uma pequena empresa de manufatura. Durante esse trabalho, descobri que o sistema ERP deles nunca havia sido copiado. Sem o conhecimento deles, seu ex-contratado de TI configurou o Backup Exec para backups completos diários, mas nunca criou um script de nenhum tipo de "despejo" ou parada / inicialização do servidor de banco de dados usado pelo sistema ERP; portanto, os arquivos do banco de dados estavam sempre em uso e ignorados pelo cópia de segurança. Assim, por mais de três anos, eles estavam realizando backups diários em fita que não possuíam nenhum dos dados do sistema ERP. Eles obedientemente trocaram a fita, exatamente como o contratado lhes disse, mas aparentemente ninguém (inclusive o contratado) se preocupou em verificar o que realmente estava nas fitas.
Nos tempos antigos, um de nossos administradores seniores deixou nossa organização e passou a responsabilidade pelo "sistema de geração de imagens de documentos" para mim. Eu era um homem baixo na equipe, inexperiente e ansioso para pular em qualquer coisa.
Era como o antigo comercial da Coca-Cola com Mean Joe Green ... Fiquei muito feliz em me tornar o administrador (único) principal de um sistema de produção voltado para o cliente e, ao sair pela porta, ele estava tipo "ei garoto, pegue "Espero que ele tenha me jogado um maço de papéis amassados com alguns logins e um número de telefone para suporte, em vez de uma toalha suada.
A euforia desapareceu rapidamente ... o sistema era composto por 2 servidores executando um banco de dados, um compartilhamento, cerca de 6 estações de trabalho com scanners e aplicativos de processamento, e um servidor web e usuários de aplicativos conectados para fazer referência a documentos. Era uma mistura profana de apache e java e pelo menos dois tipos de scripts em execução no Windows SQL Server. Oh sim. Também pagamos por uma série de "personalizações" que frequentemente se desintegravam e que o pessoal de suporte deles sempre ignorava.
Pequena lista de The Good Times:
Pouco ou nada foi documentado e eu descobri cada rugas quando algo quebrou. Como dizer ... os relatórios estavam errados ou não foram impressos. Ou o Desktop lançou uma nova versão da JVM e ninguém conseguiu digitalizar. Ou alguém chutou o dongle da estação de trabalho de digitalização e o aplicativo travou. Ou o sistema de arquivos de log ficou cheio. Ou os dados de uma extração de OCR travaram um aplicativo devido a capturar algo incorretamente e enviá-lo como algo ilegal. Ou descobrir que havia cerca de 3 dúzias de ingressos abertos com suporte para vários departamentos e muitos estavam abertos há meses. Etc etc. Descobri coisas novas e importantes na taxa de 4-5 por semana e comecei a aprender rapidamente os detalhes desse aplicativo e suas necessidades, bem como o SQL Server suficiente para manter o banco de dados moderadamente saudável.
A melhor parte foi quando fui convidado para a reunião interna do Grupo de Usuários para "me receber" em minha nova função. Eu não estou brincando com você. 30 usuários irritados em um círculo e eu consegui sentar no meio.
Foi difícil, mas aprendi um pouco muito rapidamente. Com toda a dor de lado, foi uma grande oportunidade. Parte de mim gostaria que não tivesse sido tão provado, mas talvez eu não tivesse aprendido tão rápido.
Desculpe por ter demorado tanto ... mas ahh ... é como terapia;)
há cerca de 12 anos, comecei a trabalhar como administrador de sistemas em um ISP de tamanho médio, com cerca de 30 funcionários trabalhando lá. eles nunca tiveram um administrador de sistema real antes, apenas algumas pessoas que pensavam que sabiam o que estavam fazendo (às vezes estavam certas, na maioria das vezes não estavam. no geral, é incrível que os sistemas funcionassem).
a cereja no topo do bolo, porém, era que quase todo mundo no local tinha as senhas de root dos servidores. Eu não sei sobre a recepcionista, mas certamente todos os gerentes, equipe de suporte técnico, desenvolvedores da web e qualquer outra pessoa que interagiu com o sistema tinham raiz - tanto os funcionários atuais quanto os antigos, como nunca mudaram. e todos eles o usariam. por capricho. por exemplo, se um cliente telefonar para o suporte técnico com uma reclamação, ele entraria como root e mexeria no sistema até que o problema desse cliente específico fosse resolvido ou de alguma forma magicamente parasse de acontecer (que eles consideravam "resolvidos"). é claro, isso causaria muitos outros problemas ... com os quais outras pessoas no suporte técnico estariam lidando ao mesmo tempo, usando o mesmo método de 'login como root e açougueiro do sistema'.
naturalmente, alterando a senha root e instituindo o gerenciamento de alterações e outros processos para controlar o que foi alterado, quando, como e por quem foi uma das primeiras coisas que fiz. ah sim ... e controle de backup e revisão de arquivos de configuração também.
(a primeira coisa que fiz foi fechar o servidor de retransmissão de correio aberto e implementar alguma filtragem anti-spam. de fato, tenho certeza de que consegui o emprego porque mencionei na entrevista que havia feito bastante desconhecido para mim, eles tinham um sério problema de spam / retransmissão aberta que vinha ocorrendo há meses que não faziam ideia de como consertar, por isso estavam constantemente na lista negra.Não muito tempo depois, descobri as notícias horríveis que quase todo mundo no local tinha acesso root)
afastar os raiz deles causou muita raiva no começo, mas, felizmente, meu chefe me apoiou e o que eu estava tentando alcançar, e eles rapidamente perceberam que os servidores eram muito mais confiáveis do que jamais haviam sido (não difícil de alcançar, considerando o que foi feito com as coisas pobres)
Uma pequena rede totalmente padronizada: Windows 95 e NT Server .
Isso foi há algumas semanas atrás. ; - /
Fácil, o primeiro trabalho de gerente de IS entrou e encontrou um aplicativo personalizado de entrada de pedidos que havia sido escrito pelo marido do funcionário da AP, no dBase, você podia olhar para as telas e dizer em que ordem elas foram codificadas, porque ele aprendeu à medida que avançava, algumas telas eram monocromáticas, outras pareciam uma caixa de chuva sobre elas. Muitas partes bloqueariam o arquivo em particular, de maneira que apenas um representante do Atendimento ao Cliente pudesse editar o mestre do cliente por vez.
Adicione a esse cabo coaxial thinnet no escritório remoto, com os conectores de torção baratos (sem prensar). A solução de problemas de ligações telefônicas começaria com eles dizendo que a rede estava inoperante, seguido por mim perguntando se alguém moveu móveis, computadores, se a equipe de limpeza estava aspirando algum lugar ... Se alguém respirasse os cabos, os conectores ficariam frouxos o suficiente para quebre o anel de token, mas não o suficiente para que você possa ver visivelmente que eles estavam soltos.
Em seguida, o proprietário voltava de uma viagem de negócios com uma cópia do USNews, apontava para um anúncio de computador e dizia: "por que não usamos esses servidores?" Por um tempo, pensei que estava vivendo em um desenho animado de Dilbert. Só sei que Scott Adams está me perseguindo, fazendo anotações ...
Oh Foi assim que comecei este trabalho.
Foi em 2000, em um pequeno ISP. A maioria dos servidores era de hardware "servidor" de classe 1 Pentium em gabinetes em torre. Para a autenticação DNS e RADIUS, isso não foi um problema e eles continuaram a servir nos próximos anos, mas o ponto principal foi que tudo era BSD / OS 4.2. Enquanto eu estava bastante familiarizado com ele e com o FreeBSD (na verdade, eu usei essa versão do BSD no meu primeiro emprego), dizer que era bastante arcaico nessa época é um eufemismo. O que foium problema era o servidor de correio e o servidor web. Eles eram máquinas um pouco mais rápidas, mas terrivelmente sobrecarregadas. Eu não acho que o hardware era tão robusto. Mais como computadores de mesa que tiveram sorte (?) O suficiente para não morrer. Nada havia sido atualizado desde a fundação da empresa em 1994. Estava tudo enfiado em um canto do escritório, que por coincidência não possuía ar condicionado suficiente. E quando digo "escritório", quero dizer um quarto para todos. Houve vários casos de falha do servidor devido ao calor no passado.
Ok, arquitetura arcaica: verifique.
Administrador anterior do sistema: grosseiramente incompetente, durou apenas alguns meses, acho que ele havia começado a iniciar o novo banco de dados de cobrança (e a conversão do antigo sistema de cobrança: papel) antes de desaparecer no ar. Antes disso: era o proprietário da empresa, que sabia o suficiente para criar contas, sites apache e iniciar servidores que pararam. Talvez um pouco mais do que isso. Ocasionalmente, ele tinha a ajuda de um amigo. Quem realmente trabalhou como corretor de imóveis. Atitude do chefe em relação aos administradores de sistemas: "quem precisa deles? Você está pagando US $ 40 mil para sentar e tomar café enquanto lê logs. Preciso de representantes de suporte técnico".
Segurança: nenhuma. Não, realmente . Um T1 forneceu aos servidores a conexão à Internet. E o escritório. IPs públicos fixos em tudo. Atitude do chefe: "Oh, estamos seguros. Estamos executando o BSD / OS 4.2! Nunca tivemos uma invasão!" Pelo menos as senhas não foram completamente retardadas, mas todos os servidores padrão estavam em execução em todas as máquinas. Sem remendo, é claro. Versões antigas de todo servidor daemon também.
Incêndios: em toda parte! Tudo! Em!! Fogo!!! O que fiz primeiro, uma semana depois de ser contratado (devo acrescentar, como suporte técnico. Deseja fazer administração do sistema também? Faça isso quando não estiver ocupado - eu era jovem o suficiente e pobre o suficiente para não me importar) elaborou um script de shell que controlaria quantas vezes um cliente poderia entrar no pool de discagem simultaneamente. Isso curou o problema mais urgente de o pool de discagem estar ocupado o tempo todo - devido a spammers usá-lo como uma maneira de agregar largura de banda. Mencionei que o servidor AAA RADIUS não tinha essa funcionalidade nessa versão? Nem que um novo servidor AAA RADIUS pudesse compilar nessa plataforma? FreeRADIUS também não? Consulte a seção 1, Hardware Arcaico. Mais tarde, eu fiz o mesmo tipo de coisa para implementar ah real, contabilidadena conexão discada, para que as pessoas que se inscreveram por 30 horas por mês não usem 300 horas por mês. Lembro-me de que o servidor de correio não era um relé aberto, mas pode ter sido. Por outro lado, estava terrivelmente sobrecarregado devido ao fato de o sendmail, em qualquer versão arcaica usada, ainda usar o formato mbox que exigia a análise de cada mensagem em um arquivo simples, em vez das caixas de correio no formato Maildir com uma mensagem por arquivo . Portanto, se alguém com uma caixa de correio grande alguma vez verificar seus e-mails, o servidor ficará parado para todos. E, é claro, SMTP e POP de saída estavam na mesma máquina. Não havia filtragem de spam, é claro. Em e-mails recebidos ou enviados. Não me lembro do que havia de errado com o servidor da web, além do fato de que cada novo site foi adicionado manualmente. Já é ruim o suficiente.
Backups: Backups? Ahahahaha! Aaaaaah!
A coisa mais desconcertante neste lugar, porém, foi como não havia servidor de impressão . Queria imprimir um arquivo? Levante-se da sua mesa, gire o botão da caixa de distribuição para o seu computador, volte, imprima o arquivo. Lembro-me de que não demorou muito para eu consertar isso também.
Meu ambiente atual do Domino deve ser o único. Um dos responsáveis anteriores de longo prazo estava interessado apenas em fazer um trabalho de desenvolvimento rápido e sujo, de modo que não houve absolutamente nenhum trabalho básico de limpeza por um período de 10 anos. Os dois que o seguiram, mas me precederam - compreensivelmente - deram uma olhada e decidiram manter a cabeça baixa. Então, agora eu tenho uma bagunça total de convenções de nomenclatura padronizadas, contas de usuário em todas as ACLs, administradores e desenvolvedores antigos que há muito tempo continuam com contas (e ainda em grupos sensíveis), metade dos usuários tem a mesma senha , outra metade deles tem suas senhas registradas em uma planilha, há um belo aplicativo de linha de negócios crítico com dois bancos de dados de segurança internos personalizadosalém da ACL padrão, mais de 1000 bancos de dados (incluindo itens de "Cópia de cópia de cópia de") que passaram por 4 ou 5 atualizações rápidas e sujas antes de serem congelados no nível da versão 6 e corrompidos quase diariamente . Ele também estava paranóico com a escalabilidade do Windows, então, a propósito, tenho caixas de 8 CPUs.
Levá-lo para fora e atirar seria uma piedade.
Quando comecei no meu trabalho atual, herdei a posição de um cara que foi demitido por incompetência grave depois de algumas semanas. Ele não conseguiu fazer muito enquanto trabalhava aqui, exceto destruir toda a documentação que obteve de seu antecessor, alterar todas as senhas de administrador para algo aleatório, mesmo que ele não soubesse e plantar algumas contas "ocultas" nas máquinas para entrar depois .
Senhas e backdoors não eram um problema real, mas seguir adiante sem saber o que estava fazendo o que e como era bastante interessante. Ainda assim, nenhum usuário sofreu com isso, mas tive sorte que esse cara era burro demais para causar danos reais.
essa pergunta faz minha cabeça doer. Eu trabalho para o governo do estado ... o menor lance vence!
Quando assumi minha posição atual, passei duas semanas trabalhando com o cara fugindo, trabalhando principalmente na codificação de um aplicativo da Web que ele havia passado seis meses construindo com um contratado, para ter uma boa idéia do que estava acontecendo quando o aplicativo era colocar em produção. Um mês depois, o aplicativo foi raspado e eles jogaram dinheiro no empreiteiro para simplesmente ir embora. AINDA estou lidando com aplicativos vb6 sem documentação que às vezes chama outros aplicativos para os quais nem tenho o código!
Nem vou entrar em todas as configurações bizarras de servidores, backup externo que fica do outro lado da rua ou que um outro departamento inteiro "lida" com nossos roteadores e switches (oh, eles conseguiram isso dizendo que religariam o É claro que não, agora eles apenas cobram taxas portuárias e bloqueiam dois MACs! Usamos telefones SIP pelo amor de Deus! E temos que justificar o custo para configurar uma máquina de teste. Aaarrrrgggghhh!)
Eu tenho que parar, isso vai me fazer chorar. Estou impressionado, diariamente, que qualquer coisa, sempre, seja feita de forma governamental.
Servidor de arquivos, servindo 250 GB de arquivos a cerca de 30 clientes (mix de laptops / desktops), cada um com suas pastas mapeadas para compartilhamentos de rede. A parte ruim é que ele estava executando o Windows XP com o limite máximo de 10 conexões de clientes. A primeira coisa que fiz foi formatar / instalar o Server 2003.
No dia seguinte, meus colegas ficaram extremamente felizes, pois todos puderam trabalhar simultaneamente.
Quando comecei a trabalhar na minha empresa atual, eles estavam usando o Small Business Server 2003, e finalmente chegamos a um ponto em que tivemos que mudar do SBS2003 para um ambiente de servidor "real" real. Infelizmente, o pacote de transição não funcionou para nós e a MS, através do nosso licenciamento por volume adquirido recentemente, me ajudou a fazer a transição. Ajudando, quero dizer, dando-me uma lista de coisas que precisam ser movidas e alteradas, mas não exatamente como.
Agora, sou proficiente nas entranhas do Active Directory, mas uma das coisas que eles não me disseram foi como o SBS NÃO gosta de tirar uma das funções da FSMO, depois de 8 ou 12 horas ele é reiniciado para mostrar o quão irritado fora disso.
Foi um pesadelo sair do SBS2003 e, ocasionalmente, vejo referências do SBS no AD ou uma referência ao antigo servidor do SBS aqui e ali, e já faz mais de dois anos.
Oh, btw, eu odeio SBS! :)
Um servidor Windows 2003 que também é um controlador de domínio e executa o Exchange 2003. Ruim o suficiente até o momento, mas espere, há mais ... Era também o Terminal Server, servidor SQL, servidor Web e FTP, servidor WSUS, atualizações do Antivírus e servidor de configuração central e hospedou os perfis de roaming dos usuários. Era também o servidor de backup central, usando fitas DAT.
Ainda não é ruim o suficiente? A máquina tinha uma única CPU, 2 GB de RAM e um par de unidades SATA de 7.200 RPM configuradas como RAID 1. A matriz foi particionada como 2 unidades lógicas, sendo a unidade do sistema 16 GB, das quais menos de 2 GB estavam livres. A máquina foi montada a partir de peças em segunda mão por um contratado que recomendou as especificações, sem dúvida com base nas peças que ele tinha disponíveis, e cobrou quase o preço de um servidor decente. Ele também foi responsável pela configuração e comissionamento da máquina. Seu conselho foi aceito porque ele lidava com o cliente há quase uma década. Eu me certifiquei de que ele não lidasse mais com eles.
Eu gerenciei uma auditoria de rede das operações européias de um fabricante de computadores MUITO grande ( Ireland Ahem ). Demorou semanas, mas descobrimos que cada bit de dados que estava sendo compactado em cada disco rígido de cada PC / servidor que eles criavam estava viajando pelos mesmos 4 fios - eles tinham uma única porta de 1 Gbps fazendo TODAS as suas constrói. Quando dissemos a eles que RAN obtinham mais cabos / SFPs e o enviaram caminhos múltiplos em 30 minutos, mas isso foi um choque.
Meu primeiro trabalho envolveu o planejamento de uma migração de um minicomputador "Point 4" com mais de 18 anos. Eles queriam modernizar seus equipamentos "porque o proprietário achava que os equipamentos existentes estavam envelhecendo". Esse minicomputador com compartilhamento de tempo antigo usou um terminal Televideo 955 com uma ROM personalizada e havia um total de 1 programa de emulação de terminal no mercado que permitiria conectar um computador a ele para funcionar como um terminal burro. Obviamente, esse programa foi executado apenas no Sistema 7.
Há muito que o vendedor faliu. As peças eram fornecidas por um fornecedor de suporte de hardware com um contrato anual e eram visitadas uma vez a cada poucos meses, pois algo mais acontecia e precisava ser substituído.
O maior problema que herdei foi físico, não de software. O armário do servidor também era o armário elétrico e de telefone. Portanto, ele tinha controle climático, na forma de um transformador gigante que aquecia a sala. O armário também ficava fora de uma sala que seria usada para pequenas reuniões. Eu tive que postar placas dizendo às pessoas para não fechar as portas do armário, mesmo que fosse barulhento. Felizmente, o edifício principal AC foi suficiente e nenhuma falha ocorreu devido à temperatura. O trabalho de fiação também estava um pouco confuso. Praticamente seus ratos padrão aninham os comutadores para os servidores. A melhor parte disso foi que uma das prateleiras estava separada das outras duas, de modo que havia uma pequena passagem entre as prateleiras. Ele tinha apenas um servidor, e os cabos de força estavam atravessando o chão sem um protetor e também não estendidos. Isso facilitou o engate do pé neles. Depois que você estava caindo para a frente e prestes a encarar uma planta, o cabo de remendo alto do pescoço, preguiçosamente amarrado, pegava você e tentava estalar o pescoço.
Eu não tive a oportunidade de executar esse patch até o teto antes de mudarmos de escritório (para uma sala de servidores com AC REAL!), Mas fiquei louco com tiras de velcro por todo o armário. Você poderia realmente caminhar sem se matar depois disso!
Uma empresa em que trabalhei, quando cheguei, tinha um servidor de escritório (dois discos rígidos, um nem sequer muito menos espelhado) e um servidor alugado alugado, um total de um disco rígido. Não há backups em fita.
O resto da LAN teve seus desafios - mas a pura sorte do local operando assim por mais de 3 anos é incrível. Sem espelhamento, sem redundância, sem fitas.
O IIS 4 (ou 3? Não me lembro) no NT 4, executando a intranet da empresa em um computador de mesa sem redundância ou backup por cerca de 12 anos, foi (o eliminou no mês passado) o pior que já vi, acho . Nada de extraordinário, mas ainda assim.
Um banco de dados Informix cuja tabela mais ocupada e de missão crítica tinha 16k extensões, alcançava cerca de 38.000 extensões no espaço de tabela (pense em disco fragmentado) e era duas vezes o nível suportado. (O fornecedor realmente escreveu uma carta em papel que dizia algo como "Seu banco de dados falhará a qualquer momento")
O DBA, SA e a pessoa da rede anteriores saíram e eu estava cerca de 6 semanas fora da escola. Pesquisei bastante e descobri como corrigir o problema, o que exigiria 6 horas de inatividade. Boss se recusou a agendar uma interrupção.
Portanto, em um dos dias mais movimentados do ano, o sistema congela. 500 operadoras de call center e um site comercial estão inativos. Foi difícil corrigi-lo após a falha, porque o fornecedor nunca havia feito isso antes em uma tabela desse tamanho e com algo como o esquema de banco de dados "interessante" que estávamos usando. Por isso, fizemos exatamente o que eu havia planejado inicialmente, exceto que a verificação da integridade do banco de dados levou mais 5 horas.
Concedido isso foi no final dos anos 90, mas é aqui que eu trabalhei. Tínhamos o nosso software servidor rodando em um depurador que era a máquina de trabalho do meu chefe, como ele fazia a maior parte do trabalho em casa em outra máquina, mas ainda quem executa o código de produção em um depurador?
Em um trabalho, um dos administradores anteriores achou que era uma boa ideia configurar quase todos os servidores Sun para não iniciar automaticamente. Ele também não colocou scripts de inicialização nos diretórios de nível de execução adequados porque "Quero saber se este computador travou". Ainda estou sem entender o motivo dele. Obviamente, o outro administrador estava um pouco mais preocupado com essas coisas, o que basicamente levou a que toda a loja fosse inconsistente e realmente tornou as coisas interessantes durante as primeiras interrupções planejadas e não planejadas.
Eu tenho mantido uma caixa do Windows NT4 executando o Citrix vivo ... ele foi originalmente configurado com ataque de software ... Isso mesmo ... Invasão de software, Windows NT4 .. A última falha corrompeu as duas unidades e levei ~ 8 horas para restaurá-lo ..
Para os curiosos, o Windows NT4 não gosta de rodar como uma máquina virtual em um host Linux :-D
Cliente tinha 5 funcionários. Seu antigo pessoal de TI construiu, usando equipamentos de jogos de baixo custo, 2 servidores. 1 também era um controlador de domínio executando o Exchange. o outro era um servidor de terminal. Cada funcionário usou um thin client para conectar e trabalhar no servidor. Ambos estavam executando o Windows 2000 e construídos há 5 anos. Escusado será dizer que quando as placas de ataque low-end morreram nos dois servidores em poucos dias uma da outra, substituí os servidores por um servidor hp padrão e os consegui usando minitowers regulares. Eu também coloco os servidores em suas próprias unidades de UPS, em vez de deixá-los executando o mesmo, sem ter um WAP e monitorar o backup da bateria.
Além disso, eles tinham 6 impressoras de rede no escritório e 2 estavam usando DHCP. Os outros 4 haviam atribuído IPs, mas estavam espalhados pelo intervalo de IP delegado sem documentação.
Foi triste, mas depois de um mês de adaptação (as velhas bruxas não se deram muito bem com a mudança no modo como trabalhavam), elas ligam muito raramente agora.
Fui chamado para consertar um sistema MySQL com desempenho ruim, apenas para descobrir um elemento de cabeçalho incorreto no /etc/my.cnf
qual estava fazendo com que todos os bons parâmetros de ajuste que eles tentaram usar fossem ignorados em favor dos padrões ...
Então, tínhamos um sistema com um db de 7Gb em um servidor com 16Gb de RAM, usando o mecanismo de banco de dados InnoDB ...
A configuração defeituosa foi definida como 12 Gb de RAM para o InnoDB ...
O sistema estava usando apenas 128 Mb de RAM para o InnoBD ... portanto, muita atividade em disco para cada consulta e atualização!
Uma rápida correção do cabeçalho, reinício do serviço MySQL e ei-presto, tudo foi armazenado em cache e executado admiravelmente :)
Estranho que ninguém tenha pensado em verificar se os parâmetros de ajuste que eles aplicaram estavam realmente sendo usados! : - /