É difícil dar respostas específicas, já que 90% desse trabalho é uma experiência que ensina onde procurar por qual tipo de problema e os outros 90% sabem onde procurar no Google para obter dicas de onde começar.
Normalmente, experimento o saco de papel, como fazer com que o cliente demonstre o problema (principalmente para descartar problemas com os dedos e quaisquer problemas que o cliente possa ter ao descrever o problema), e depois tentar duplicar o problema em outro computador. Fazer isso com frequência fornece informações sobre onde procurar.
Não esqueça o problema corretivo de uma reinicialização, especialmente para sistemas Windows, ainda hoje. Costumava ser assim tanto que eu perguntava às pessoas "Você reiniciou? Bem, tente isso e deixe-me saber se o problema persistir" - isso corrigiu uma porcentagem muito grande dos problemas sobre os quais me perguntaram.
Freqüentemente, também há problemas em problemas de resolução de DNS e conectividade básica (ACLs em roteadores, intervalos de ar na rede, pings / traceroutes / mtrs para sites remotos, etc.).
Para serviços que você tem controle direto, a execução de nagios ou algo para garantir que o serviço esteja realmente em execução pode frequentemente desencadear a correção de problemas antes que os clientes falem sobre eles. Você provavelmente também deseja executar estatísticas, diretamente através de munin ou algo assim, ou via SNMP para algo como o Cacti.
Normalmente, tento fazer com que o Cacti funcione contra pelo menos todos os meus switches e firewalls principais; sempre que possível, corro o Cacti contra tudo o que posso. Nesses casos, geralmente procuro coisas como contagem de erros de porta ou tráfego excessivo. Os gráficos de firewall de alguns dispositivos podem mostrar o uso da CPU e sessões simultâneas; você aprenderá em quais limites seu dispositivo de firewall começa a ter problemas.
Seu firewall pode conseguir fazer logon em um dispositivo syslog; Nesse caso, registre tudo o que puder e procure por dicas. Isso será mais fácil se você executar algo como syslog-ng ou rsyslog ou splunk que permita dividir seus logs um pouco, em vez de lidar com um arquivo monolítico.
Eu também tento rodar o nfsen contra pelo menos o interior do meu firewall e a ligação ao provedor de internet sempre que possível. Isso permite que você volte no tempo para ver as sessões e ver quem estava fazendo o que; isso às vezes pode pegar comportamentos interessantes.