Por que o vCenter 5.1u1 está saindo dos hosts do modo de manutenção?

Este servidor vCenter acabou de ser atualizado para a atualização 5.1 1. Estou passando por hosts e atualizando o firmware, depois atualizando-os de várias versões do 5.0 para 5.1u1.

O vCenter 5.1u1 parece ter um novo comportamento interessante: ele está removendo os hosts do modo de manutenção quando eles se reconectam após serem desconectados - mas, inconsistentemente, eu já o vi 4 ou 5 vezes em ~ 25-30 reinicializações de host. Eu só vi isso acontecer em hosts 5.0 que ainda não foram atualizados para o 5.1.

tarefas

Na imagem, coloquei o host no modo de manutenção e o reinicializei no modo de atualização automática do DVD do HP SPP. Após o processo usual de atualização de aproximadamente 40 minutos, o host voltou a ficar on-line ... e 7 segundos antes de registrar que o host havia se reconectado, o vCenter havia enviado ao host uma tarefa para sair do modo de manutenção.

eventos

No meu entender, o único momento em que o vCenter deve deixar um host fora do modo de manutenção é quando o vCenter o coloca no próprio modo de manutenção (como uma tarefa de atualização do VUM).

Por que esse vCenter sairia unilateralmente de um host do modo de manutenção iniciada pelo usuário?

Editar, informações adicionais:

Executei as atualizações de firmware em mais 5 hosts, tudo ao mesmo tempo. Dois deles saíram do modo manutenção após reconectar, três não. O fator comum daqueles que saem do modo de manutenção parece ser quanto tempo ficaram off-line ; os dois que fizeram algumas tentativas de inicializar na mídia virtual são os dois que foram eliminados do modo de manutenção.

esx31 (imagem acima): 45 minutos sem resposta
esx19 (saiu da manutenção): 87 minutos sem resposta
esx24 (permaneceu em manutenção): 32 minutos sem resposta
esx29 (permaneceu em manutenção): 39 minutos sem resposta
esx32 (permaneceu em manutenção): 30 minutos sem resposta
esx34 (saiu da manutenção): 70 minutos sem resposta

Edit: A ideia do tempo de desconexão parece ter sido um arenque vermelho, pois não está acontecendo de forma consistente.

Além disso , no vpxd.logmodo de manutenção de saída, o início da tarefa sempre segue imediatamente imediatamente essa vim.EnvironmentBrowser.queryProvisioningPolicychamada SOAP. Aqui estão as linhas, ligeiramente aparadas para maior clareza:

15:27:49.535 [info 'vpxdvpxdVmomi'] [ClientAdapterBase::InvokeOnSoap] Invoke done (esx31, vim.EnvironmentBrowser.queryProvisioningPolicy)
15:27:49.560 [info 'commonvpxLro'] [VpxLRO] -- BEGIN task -- esx31 -- HostSystem.exitMaintenanceMode --

Observe que nos nós que não obtêm a tarefa de saída, o vim.EnvironmentBrowser.queryProvisioningPolicyevento ainda ocorre. Não estou vendo nenhuma outra diferença nos eventos antes ou depois disso no processo de reconexão, além dos eventos extras causados pela saída do modo de manutenção.

Dada a menção do log às políticas de provisionamento, procurar problemas no modo de manutenção relacionados à implementação automática gera reclamações sobre comportamento semelhante (embora eu não esteja usando a implementação automática ).

vmware-esxi vmware-vsphere

— Shane Madden
fonte

Você pode entrar em contato com a linha de suporte ao cliente VMware .... ou perguntar em um dos grupos de vmware. Isso pode ser um erro na programação.

— Mdpc 6/06/2013

Além disso, qual abordagem do vCenter você está usando? Utensílio? Executando no Windows?

— ewwhite

@ewwhite Em execução no Windows.

— Shane Madden

Hmm ... Possivelmente relacionado a isso ? - Eu diria que definitivamente não deveria fazer isso ...

— voretaq7

Que tipo de hardware você está usando para seus hosts? Nosso UCS estava causando um problema semelhante: quando um host era reiniciado, alguns deles gostam de reiniciar duas vezes, enquanto outros (mesmo tipo de blade, mesmo firmware, mesmas atualizações de esx) reiniciavam apenas uma vez. Quando conversei com a Cisco sobre o assunto, eles disseram "é um problema conhecido"

— MoSiAc 15/13

Vi isso acontecer com os hosts ESXi 4.1 depois que um patch acidentalmente atingiu a pasta / tmp / scratch. Convém verificar se esse diretório ainda existe nos hosts que saíram do modo de manutenção automaticamente.

Se eles estiverem faltando, convém mkdir para criá-lo. Além disso, você deve verificar se o risco persistente está configurado corretamente em cada host, seguindo este artigo da VMware KB:

VMware KB: Criando um local de rascunho persistente para ESXi 4.xe 5.x

— zippy
fonte