Eu tenho 15 servidores idênticos de Linux RH 4.7 de 64 bits. Eles executam o banco de dados do cluster (o cluster está no nível do aplicativo). Ocasionalmente (quase todos os meses), uma caixa aleatória (embora nunca a mesma) congela.
Eu posso executar ping na caixa e executar ping. Se eu tentar ssh na caixa, recebo:
ssh_exchange_identification: Connection closed by remote host
O SSH está configurado corretamente.
Quando vou à sala do servidor e tento fazer login diretamente no console, posso alternar entre os consoles com Alt+ Fn, posso inserir um nome de usuário e os caracteres são exibidos, mas depois de pressionar Enter, nada acontece. Esperei 8 horas uma vez e não mudou.
Eu configurei o syslog para registrar tudo em um host remoto e não há nada nesses logs. Quando eu reinicio a máquina, ela funciona sem problemas. Eu executei testes de HW - está tudo bem e nada está nos logs. As máquinas também são monitoradas com NAGIOS, e não há carga ou atividade incomum antes do congelamento.
Eu fiquei sem idéias; o que mais posso fazer ou verificar?