Primeiro, devo perguntar: "desligamentos"? Você quer dizer que a máquina reinicia ou realmente pára? Se parar, está mal configurado (talvez no BIOS) ou algo está desligando ativamente a máquina (ou seja, init 0).
Caso contrário, seu candidato principal seria / var / log / syslog e /var/log/kern.log, pois seu problema parece um pânico no kernel ou uma falha de hardware acionada por software. Obviamente, se o servidor executar algum serviço (por exemplo, apache) também poderá lhe dar uma pista.
Frequentemente, em situações como essa, são geradas entradas de log, mas como a máquina está tendo dificuldades, ela não consegue gravar as entradas no disco. Se a caixa estiver colocada, as chances são de que esteja conectada a um console serial pelo parceiro colo. É aí que eu procuraria se não encontrasse nada suspeito nos logs acima.
Se a máquina não estiver conectada a um console serial e não houver nada no log, convém enviar o syslog para uma caixa diferente via rede. Talvez a interface de rede sobreviva um pouco mais e as mensagens de log possam ser lidas no servidor syslog. Dê uma olhada no rsyslog ou syslog-ng.
ATUALIZAR:
Eu concordo com @Johann abaixo. A causa mais provável de interrupção é o watchdog de temperatura do processador. Tente verificar / plotar a temperatura na caixa via lmsensors ou smartctl (geralmente o mais fácil). Acho que collectd é incomparável em acompanhar um grande número de variáveis ao longo do tempo. Ele pode fazer IPMI e lm-sensores e hddtemp. Além disso, alguns BIOS: es registram eventos de parada de temperatura.