Como verificar o CentOS 6 Server VM Host após uma falha de energia?

9

Hoje à tarde, alguém em nosso escritório decidiu retirar o plugue do servidor porque estava invadindo o local. Eles não desligaram, apenas puxaram o plugue enquanto ele estava funcionando.

O servidor possui 4 unidades SATA em uma configuração de software RAID 10 e o LVM em execução no RAID. O servidor está executando o CentOS 6.2 Minimal e é um host de máquina virtual usando o KVM. No momento em que foi desconectado, havia muitas máquinas convidadas em execução no computador. Cada convidado possui uma ou mais partições LVM que ele usa diretamente como discos rígidos. As partições convidadas são EXT3, EXT4 e NTFS. O sistema operacional host está em uma partição EXT4.

Mais tarde, quando a energia voltou, a pessoa conectou-a novamente e ela começou a funcionar. Como o conectaram sem antes conectar um monitor, não há como ver o que apareceu na tela. Tentei conectar um monitor agora, mas ele não funcionará a menos que o monitor esteja conectado na inicialização. Deixei-o exatamente como está, até que eu possa obter alguns conselhos, pois não quero estragar nada (além disso).

Eu posso entrar no host via SSH. Ainda não o reinicializei, caso haja algo em um log em algum lugar que possa ser útil.

O que preciso fazer é verificar a integridade de todos os discos e partições, se isso for possível. Acho que o RAID 10 usa algum tipo de cache baseado em memória e estou preocupado com as unidades serem inconsistentes ou com arquivos corrompidos se houver algo na sugestão para gravar na unidade que ainda não foi gravada.

[root@othello ~]# cat /proc/mdstat
Personalities : [raid10] [raid1] 
md2 : active raid1 sdc1[2] sda1[0] sdd1[3] sdb1[1]
      102388 blocks super 1.0 [4/4] [UUUU]

md0 : active raid10 sda3[0] sdc3[2] sdd3[3] sdb3[1]
      1952289792 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]
      bitmap: 0/15 pages [0KB], 65536KB chunk

md1 : active raid10 sdc2[2] sda2[0] sdd2[3] sdb2[1]
      1022976 blocks super 1.1 512K chunks 2 near-copies [4/4] [UUUU]

unused devices: <none>

Também me incomoda que esteja chamando minhas matrizes de "quase cópias". Isso é normal?

Que tipo de verificação de disco devo executar para garantir que está tudo bem com as unidades e os dados? Existem outras coisas que devo verificar?

ATUALIZAR

Saída de mdadm --detail

[root@othello ~]# mdadm --detail /dev/md0
/dev/md0:
        Version : 1.1
  Creation Time : Sat Feb 25 09:26:20 2012
     Raid Level : raid10
     Array Size : 1952289792 (1861.85 GiB 1999.14 GB)
  Used Dev Size : 976144896 (930.92 GiB 999.57 GB)
   Raid Devices : 4
  Total Devices : 4
    Persistence : Superblock is persistent

  Intent Bitmap : Internal

    Update Time : Sun Mar 11 12:59:30 2012
          State : active 
 Active Devices : 4
Working Devices : 4
 Failed Devices : 0
  Spare Devices : 0

         Layout : near=2
     Chunk Size : 512K

           Name : othello.myserver.com:0  (local to host othello.myserver.com)
           UUID : 58ba40ab:12516733:e3779362:68200fdd
         Events : 2208

    Number   Major   Minor   RaidDevice State
       0       8        3        0      active sync   /dev/sda3
       1       8       19        1      active sync   /dev/sdb3
       2       8       35        2      active sync   /dev/sdc3
       3       8       51        3      active sync   /dev/sdd3

— usuario
fonte

3

O RAID está bom, todos os UUUU's significam que todos os discos da matriz estão ativos. Eu nem me preocuparia com isso por enquanto.

Quanto às VMs, se você quiser executar fscks nelas, pare as VMs e execute

fsck.ext3 (ext4, etc) /path/to/lvm (geralmente como / dev / vg-name / lv-name)

Se você estiver usando o KVM, poderá virshfazer o que for necessário nas VMs. Aqui está um link para a página de manual do virsh http://linux.die.net/man/1/virsh

Se você realmente deseja executar verificações de disco em suas matrizes de ataque, precisará reiniciar no modo de usuário único ou inicializar a partir de um CD ao vivo para poder fsck os dispositivos individuais / dev / mdX. Como o sistema de arquivos primário é EXT4, eu não me incomodaria, é muito melhor que EXT3 com quedas de energia.

— jemmille
fonte

+1, tentará amanhã.

— Nick

1

Tente mdadm --detail / dev / md0 (o mesmo para md1 e md2).

Então tente o conselho aqui: http://linas.org/linux/raid.html

— tributo
fonte

Eu publiquei a saída mdadm --detail /dev/md0acima. Li o guia que você vinculou, mas ele não menciona os sistemas de arquivos EXT4 ou o que especificamente posso fazer para verificar a integridade?

— 31412 Nick as

O tipo de sistema de arquivos não deve importar em termos de integridade do RAID. Se você tiver um período de manutenção, poderá desmontar os sistemas de arquivos afetados e fsckeles. Se você quiser verificar os dispositivos RAID, poderá fazer algo assim echo "check" > /sys/block/md0/md/sync_action. Ou toque em "reparar" para fazer algum tipo de reparo no mdadm.

— CJC

Vou tentar isso amanhã e relatar de volta.

— Nick