Eu tenho um servidor executando o VMware ESXi v4.1.0 348481. Possui um RAID10 de hardware e uma unidade de backup SATA. Eu tenho uma VM em execução que possui seu vmdk de inicialização primário no armazenamento de dados RAID10 e um vmdk de 600 GB no armazenamento de dados da unidade de backup SATA. A VM executa o Debian linux com o kernel do FreeBSD e usa o ZFS para a unidade de backup.
EDIT: A unidade não está diretamente conectada à VM. É usado como um VMware Datastore e a VM possui um vmdk no armazenamento de dados da unidade SATA. O armazenamento de dados não está cheio (apenas 65%)
Eu entrei no servidor usando SSH e descobri que o backup da noite passada foi interrompido e / zfs list
ou zpool list
ambos. Então, eu abri o console virtual no ESXi e fiquei triste ao ver:
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
(da1:mpt0:0:1:0): READ(10). CDC: 28 0 19 97 3a 50 0 0 2d 0
(da1:mpt0:0:1:0): CAM status: SCSI Status Error
(da1:mpt0:0:1:0): SCSI status: Check Condition
(da1:mpt0:0:1:0): SCSI sense: MEDIUM ERROR info:4862ec asc:11,4 (Unrecovered read error - auto reallocate failed)
Tentei reiniciar a VM e recebi uma mensagem informando que o sistema estava sendo desativado para reinicialização, e então isso foi interrompido. (^ C aparece, mas não mata shutdown
). Eu não pode interromper ou kill -9
o zpool list
zfs list
ou rsync
processos - Nada acontece quando tento.
- Isso indica que a unidade SATA de backup está falhando? Ou isso poderia ser apenas um erro do ESXi?
- Como no cliente vSphere eu poderia saber se a unidade está falhando? Não vi nenhuma indicação, tudo no Status de integridade do hardware parece bom e não vi nada na configuração de armazenamento.
- Como devo proceder a partir daqui? Devo apenas reiniciar com força a VM?
UPDATE: Apenas reiniciei a VM com força. Depois de voltar a ficar online, o zpool de backup ficou online, no entanto:
root@timestandstill:/home/jnet# zpool status -v
pool: backup
state: ONLINE
status: One or more devices has experienced an error resulting in data
corruption. Applications may be affected.
action: Restore the file in question if possible. Otherwise restore the
entire pool from backup.
see: http://www.sun.com/msg/ZFS-8000-8A
scrub: none requested
config:
NAME STATE READ WRITE CKSUM
backup ONLINE 0 0 0
da1 ONLINE 0 0 0
errors: Permanent errors have been detected in the following files:
/backups/someserver/home/someuser/public_html/somedir/calendar/someuser/calendars/somefile.ics
Estou inclinado a substituir a unidade ...