Há uma distinção importante entre tornar um serviço altamente disponível e tornar uma máquina individual altamente disponível.
Na maioria dos casos, o objetivo é tornar o serviço altamente disponível, e a disponibilidade de máquinas individuais é apenas um meio para atingir esse objetivo. No entanto, há um limite de quão longe você pode alcançar, melhorando a disponibilidade de máquinas individuais.
Mesmo se você pudesse tirar todo o tempo de inatividade devido à necessidade de atualizar o software, as máquinas individuais ainda não estarão 100% disponíveis. Assim, para aumentar a disponibilidade do serviço acima da disponibilidade de máquinas individuais, é necessário projetar redundância em um nível superior. A última frase da sua pergunta mostra que pelo menos em princípio você sabe disso.
Se você projetar um serviço para estar mais disponível do que as máquinas individuais podem oferecer, não haverá mais pressão para obter alta disponibilidade de máquinas individuais. Portanto, para serviços altamente disponíveis, não há necessidade de evitar reinicializações. Em vez disso, você pode sacrificar alguma confiabilidade de máquinas individuais para economizar, o que pode ser aplicado em outras áreas nas quais você pode obter ganhos muito maiores em confiabilidade.
Uma vez que o sistema de alto nível foi projetado para ser confiável no caso de componentes individuais de hardware falharem, o patch ativo dos kernels muda de uma vantagem para se tornar um risco.
É um risco, pois pode haver diferenças sutis entre o comportamento de uma máquina que foi corrigida ao vivo e uma máquina que foi inicializada com a versão mais recente do kernel. Isso pode introduzir um bug latente que pode causar uma interrupção na próxima vez que uma máquina for reiniciada. Esse risco é amplificado pela reinicialização para que uma lista limpa seja vista como um método para mitigar algumas interrupções.
Um dia você pode ter uma interrupção na qual acha que reiniciar a máquina pode ajudar. Mas, quando você reinicia, é atingido pelo bug latente, impedindo que a máquina volte ao estado desejado. A aplicação de patches ao vivo não é a única maneira de ocorrer um bug latente, mas também porque algo tão comum como um serviço foi ativado manualmente e nunca configurado para iniciar durante a inicialização ou configurado para iniciar muito cedo, de modo que falha ao surgir devido a dependências não satisfeitas.
Por esses motivos, um serviço altamente disponível pode ser mais fácil de obter com reinicializações regulares de máquinas individuais a uma taxa lenta o suficiente para detectar problemas e pausar a sequência de reinicializações assim que ocorrerem problemas.