Hoje à tarde, alguém em nosso escritório decidiu retirar o plugue do servidor porque estava invadindo o local. Eles não desligaram, apenas puxaram o plugue enquanto ele estava funcionando.
O servidor possui 4 unidades SATA em uma configuração de software RAID 10 e o LVM em execução no RAID. O servidor está executando o CentOS 6.2 Minimal e é um host de máquina virtual usando o KVM. No momento em que foi desconectado, havia muitas máquinas convidadas em execução no computador. Cada convidado possui uma ou mais partições LVM que ele usa diretamente como discos rígidos. As partições convidadas são EXT3, EXT4 e NTFS. O sistema operacional host está em uma partição EXT4.
Mais tarde, quando a energia voltou, a pessoa conectou-a novamente e ela começou a funcionar. Como o conectaram sem antes conectar um monitor, não há como ver o que apareceu na tela. Tentei conectar um monitor agora, mas ele não funcionará a menos que o monitor esteja conectado na inicialização. Deixei-o exatamente como está, até que eu possa obter alguns conselhos, pois não quero estragar nada (além disso).
Eu posso entrar no host via SSH. Ainda não o reinicializei, caso haja algo em um log em algum lugar que possa ser útil.
O que preciso fazer é verificar a integridade de todos os discos e partições, se isso for possível. Acho que o RAID 10 usa algum tipo de cache baseado em memória e estou preocupado com as unidades serem inconsistentes ou com arquivos corrompidos se houver algo na sugestão para gravar na unidade que ainda não foi gravada.
[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1]
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
102388 blocks super 1.0 [4/4] [UUUU]
md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
bitmap: 0/15 pages [0KB], 65536KB chunk
md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
unused devices: <none>
Também me incomoda que esteja chamando minhas matrizes de "quase cópias". Isso é normal?
Que tipo de verificação de disco devo executar para garantir que está tudo bem com as unidades e os dados? Existem outras coisas que devo verificar?
ATUALIZAR
Saída de mdadm --detail
[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
Version : 1.1
Creation Time : Sat Feb 25 09:26:20 2012
Raid Level : raid10
Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
Raid Devices : 4
Total Devices : 4
Persistence : Superblock is persistent
Intent Bitmap : Internal
Update Time : Sun Mar 11 12:59:30 2012
State : active
Active Devices : 4
Working Devices : 4
Failed Devices : 0
Spare Devices : 0
Layout : near=2
Chunk Size : 512K
Name : othello.myserver.com:0 (local to host othello.myserver.com)
UUID : 58ba40ab:12516733:e3779362:68200fdd
Events : 2208
Number Major Minor RaidDevice State
0 8 3 0 active sync /dev/sda3
1 8 19 1 active sync /dev/sdb3
2 8 35 2 active sync /dev/sdc3
3 8 51 3 active sync /dev/sdd3