Como saio dessa situação com segurança?
Os detalhes são os seguintes:
Um servidor xen possui dispositivos de bloco alocados para VMs. Mas esses dispositivos também foram montados dentro do Xen.
De fato, 44 desses dispositivos de bloco foram montados assim. Para piorar a situação, cada dispositivo físico é visto em quatro caminhos e cada um deles é montado em um ponto de montagem separado. Em outras palavras, os dispositivos são realmente montados 5 vezes cada.
O SO convidado da VM vê o caminho por meio de um pseudo dispositivo do PowerPath (alocado como um dispositivo phy: block para o domU)
Alguns dos dispositivos estão formatados como ext2 e reiserfs.
Não há necessidade de me explicar os riscos de corrupção do sistema de arquivos envolvidos aqui.
Receio que apenas a desmontagem dos sistemas de arquivos possa causar corrupção e sinto que , neste momento, retirar a energia do host é a opção mais segura .
Observe que os aplicativos, bancos de dados Oracle em sua maioria, em todas as VMs ainda estão em execução e em uso.
Descobri isso ao investigar o alto uso da CPU no dom0. Existe um processo inquestionável de "localização", com cwd -> / media / disk-12 montado em / dev / sdf1, que pertence a / dev / emcpowerr
Antes que alguém pergunte, a única vez em que vi processos não podem ser eliminados e continuar a usar CPU e RAM (diferente de um processo extinto / zumbi) é quando há E / S confirmadas, por exemplo, sincronização retornada, mas ainda não fisicamente em disco . Mais comumente, isso ocorre na E / S da fita.
Sugestões !?
PS Eu esperava que os dispositivos fossem "reservados" depois de montados, para evitar esse tipo de coisa? Ou isso não é possível no Linux?
EDIT: Em primeiro lugar, estou convencido de que o KDE dentro do hypervisor) é o culpado. Parece que o KDE está montando os dispositivos possíveis no log para criar ícones na área de trabalho. No entanto, o mesmo não está acontecendo em outros servidores Xen, mas todos os outros servidores estão executando uma versão muito mais antiga do SLES e do KDE ... V4 parece ser o mais ofensivo, com 3,4 se comportando melhor).
Além disso, duas VMs não críticas foram suspensas. Depois de desligá-los, eles não inicializariam novamente devido à corrupção do sistema de arquivos. A VM principal / de produção ainda está em execução e o banco de dados ainda está funcionando, mas claramente essa é uma bomba-relógio. O cliente está tentando recriar o ambiente em outra VM em outro servidor, mas está preso a problemas de configuração de alguns componentes, por isso estamos aguardando ...
De qualquer forma, sinto que nenhuma das respostas até agora foi mais do que "as melhores práticas são sempre encerradas com graciosidade" E espero conseguir algo mais concreto ... De qualquer forma, sinto que essa situação pode exigir mais cuidado. pensando. O desligamento fará com que as E / S pendentes, em particular as atualizações de metadados do sistema de arquivos do hipervisor, sejam sincronizadas e causem uma corrupção potencialmente importante no sistema de arquivos?