Das pessoas que gerenciam seus próprios clusters (ou seja, não usam / pagam pela Amazon Autoscale, Rightscale, Scalr etc.), como estão gerenciando suas instâncias no EC2 e lidando com (por exemplo) failover? Gostaria de saber se a maioria das pessoas acaba escrevendo suas próprias cargas de scripts contra a API do EC2, como suspeito.
Essa é certamente a nossa abordagem: prepare nosso próprio daemon de monitoramento / reinicialização baseado em Python Boto que roda fora do local, ouvindo as atualizações do UDP de nossas instâncias. Na falha, capturamos volumes, registramos imagens, iniciamos novas instâncias, excluímos volumes antigos e assim por diante.
De vez em quando, ao invadir nossos scripts, acho que já deve haver algumas ferramentas de código aberto que lidam com esses problemas e que não têm restrições de (digamos) Scalr, mas eu sempre volto do Google de mãos vazias. (Coisas que o Scalr tem são bastante limitadas no conjunto / versões / configurações de software suportadas e têm maneiras especializadas e complicadas da OMI de manipular essas configurações.)
Além disso, o ecossistema Linux-HA / Pacemaker (Heartbeat, ldirectord etc.) parece que não é realmente adequado para o EC2 . (Mas descobri isso - embora não tenha certeza de que seja realmente uma solução de alta qualidade).