Temos algumas dúzias de servidores Proxmox (o Proxmox é executado no Debian) e, aproximadamente uma vez por mês, um deles terá um pânico no kernel e trava. A pior parte desses bloqueios é que, quando um servidor está em um comutador separado do mestre de cluster, todos os outros servidores Proxmox nesse comutador param de responder até que possamos encontrar o servidor que realmente travou e reiniciá-lo.
Quando relatamos esse problema no fórum do Proxmox, fomos aconselhados a atualizar para o Proxmox 3.1 e estamos fazendo isso nos últimos meses. Infelizmente, um dos servidores que migramos para o Proxmox 3.1 travou com um pânico no kernel na sexta-feira e novamente todos os servidores Proxmox que estavam no mesmo comutador estavam inacessíveis na rede até que pudéssemos localizar o servidor travado e reiniciá-lo.
Bem, quase todos os servidores Proxmox no switch ... achei interessante que os servidores Proxmox no mesmo switch que ainda estavam no Proxmox versão 1.9 não foram afetados.
Aqui está uma captura de tela do console do servidor com falha:
Quando o servidor foi bloqueado, o restante dos servidores no mesmo switch que também executava o Proxmox 3.1 tornou-se inacessível e vomitava o seguinte:
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
e1000e 0000:00:19.0: eth0: Reset adapter unexpectedly
...etc...
uname -a saída do servidor bloqueado:
Linux ------ 2.6.32-23-pve #1 SMP Tue Aug 6 07:04:06 CEST 2013 x86_64 GNU/Linux
pveversion -v output (abreviado):
proxmox-ve-2.6.32: 3.1-109 (running kernel: 2.6.32-23-pve)
pve-manager: 3.1-3 (running version: 3.1-3/dc0e9b0e)
pve-kernel-2.6.32-23-pve: 2.6.32-109
Duas questões:
Alguma pista do que estaria causando o pânico do kernel (veja a imagem acima)?
Por que outros servidores no mesmo switch e versão do Proxmox seriam eliminados da rede até que o servidor bloqueado fosse reiniciado? (Nota: havia outros servidores no mesmo switch que estavam executando a versão 1.9 mais antiga do Proxmox que não foram afetados. Além disso, nenhum outro servidor Proxmox no mesmo cluster 3.1 foi afetado e não estava no mesmo switch.)
Agradecemos antecipadamente por qualquer conselho.