Primeira ordem: É responsivo?
Se você não conseguir fazer login, existem problemas maiores em andamento. Isso geralmente ocorre em dois tipos: falha de hardware e falha de software. Ambos são potencialmente catastróficos. Para evitar erros do DFA, verifique primeiro a integridade geral do hardware - geralmente basta uma simples olhada.
Segunda ordem: as estruturas subjacentes do sistema estão em boas condições de saúde e ordem?
Verifique a "Tríade de Ouro" dos sistemas:
- Tempo de CPU suficiente para processamento
- Espaço em disco suficiente disponível para armazenamento
- Memória suficiente disponível para cargas de trabalho
Nas últimas décadas, a tríade se expandiu para um "quad", que inclui comunicações (redes):
- A conectividade é funcional, responsiva e tem capacidade
Terceira ordem: qual é a gravidade do problema?
Quais programas ou serviços são afetados? Em ordem decrescente de gravidade, é sistêmica (em todo o sistema), agrupada (um grupo de programas) ou isolada (um programa específico)? Clusters de programas normalmente estão disparando porque um serviço subjacente específico falhou ou deixou de responder. Às vezes, problemas sistêmicos estão relacionados a isso (pense em conflitos de DNS ou IP), mas saber onde procurar geralmente é a chave.
Quarta ordem: as ferramentas de diagnóstico fornecem dados úteis relevantes para o problema?
Agora que você tem informações sobre a integridade do sistema (segunda ordem) e quais partes dele estão enfrentando problemas (terceira ordem), isso deve facilitar a identificação de onde está o problema.
Mensagens de erro ou arquivos de log devem ser um ponto de referência comum nessa jornada.
Problemas de CPU:
Problemas em espaço em disco / E / S:
Problemas de memória:
Problemas de conectividade:
- ping
- rota (e arp e rarp e amigos)
- iptables, ipchains, ipfw (para o pessoal do BSD por aí)
- traceroute ou mtr
- hosts, nslookup ou escavação
- netstat
Queixa mais comum (que eu ouvi):
O e-mail não está sendo entregue rápido o suficiente (mais de um minuto entre o envio e o recebimento pelo destinatário) ou o e-mail está rejeitando minha tentativa de envio. Isso geralmente se resume ao limitador de taxa do Postfix durante uma tempestade de spam, o que afeta a capacidade de aceitar entrega interna.
Um exemplo da vida real:
No entanto, esse nem sempre é o caso. Uma vez, o problema persistiu, independentemente da reinicialização do serviço; então, após 3 minutos, era hora de começar a olhar em volta. A CPU estava ocupada, mas abaixo de 100%, mas a carga havia subido para 15 em uma caixa de apenas 2 núcleos e ameaçava subir mais. O comando top revelou que o sistema de correio estava com overdrive, junto com o scanner de correio, mas não havia processos filhos do amavis à vista. Essa foi a pista - o comando de fila de correio (mailq) mostrou mais de 150 mensagens não entregues, mais de 80% das quais eram spam, nos últimos 20 minutos. Um rápido ajuste para reduzir o limitador de taxa (que reduziu a taxa de entrada da tempestade de spam) e ao mesmo tempo aumentar o número de processos filho do scanner de email (para ajudar a processar o backlog), seguido de uma reinicialização do serviço, resolveu o problema e o sistema pôde para concluir entregas em pouco tempo.
A causa do problema foi que o processo pai do amavis havia morrido e os processos filhos finalmente acabaram (eles terminam após tantas varreduras para evitar vazamentos de memória). Portanto, havia processos SMTP no postfix tentando entrar em contato com ... o nada ... para fazer a verificação de spam / vírus necessária. A distribuição que eu estava usando tinha pacotes desatualizados que nunca seriam atualizados; como a instalação deveria ser substituída em um ano ou mais, eu "substitui" manualmente a instalação para a versão mais recente, que incluía várias correções de bugs. Eu não tive o mesmo problema desde então.