Estamos executando alguns sites da infraestrutura da AWS da Amazônia há cerca de dois anos e, há cerca de dois dias, o servidor da web começou a cair uma ou duas vezes por dia com o único erro que posso encontrar:
HTTP/1.1 503 Service Unavailable: Back-end server is at capacity
Nenhum alarme (CPU / Disco IO / DB Conn) está sendo acionado pelo CloudWatch. Tentei ir ao site via IP elástico para pular o ELB e consegui o seguinte:
HTTP request sent, awaiting response... Read error (Connection reset by peer) in headers. Retrying.
Não vejo nada fora do comum nos logs do apache e verifiquei que eles estavam sendo rotacionados corretamente. Não tenho problemas para acessar a máquina quando ela está "inativa" via SSH e, olhando para a lista de processos, vejo 151 processos apache2 que parecem normais para mim. Reiniciar o apache corrige temporariamente o problema. Esta máquina funciona apenas como um servidor da web atrás de um ELB. Todas as sugestões serão muito apreciadas.
Média de utilização da CPU: 7,45%, mínimo: 0,00%, máximo: 25,82%
Média de utilização de memória: 11,04%, mínimo: 8,76%, máximo: 13,84%
Média de utilização de swap: N / A, Mínimo: N / A, Máximo: N / A
Utilização do espaço em disco para / dev / xvda1 montada em / Média: 62,18%, Mínimo: 53,39%, Máximo: 65,49%
Deixe-me esclarecer que acho que o problema é da instância individual do EC2 e não do ELB. Eu simplesmente não queria descartar isso, apesar de não ter conseguido alcançar o IP elástico. Suspeito que o ELB esteja retornando os resultados de atingir a instância do EC2 real.
Atualização: 26/08/2014 Eu deveria ter atualizado isso mais cedo, mas a "correção" era tirar um instantâneo da instância "ruim" e iniciar a AMI resultante. Não caiu desde então. Examinei a verificação de integridade quando ainda estava com problemas e podia acessar a página de verificação de integridade ( curl http://localhost/page.html
) mesmo quando estava recebendo problemas de capacidade do balanceador de carga. Não estou convencido de que tenha sido um problema de verificação de saúde, mas como ninguém, incluindo a Amazon, pode fornecer uma resposta melhor, estou marcando-a como a resposta. Obrigado.
Update: 06-05-2015 Pensei em voltar aqui e dizer que parte do problema agora acredito firmemente nas configurações de verificação de saúde. Não quero descartar que seja um problema com a AMI porque ela definitivamente melhorou após o lançamento da AMI de substituição, mas descobri que nossas verificações de integridade eram diferentes para cada balanceador de carga e aquela que estava com mais problemas tinha um limite insalubre realmente agressivo e tempo limite de resposta. Nosso tráfego tende a aumentar imprevisivelmente e acho que entre as configurações agressivas de verificação de saúde e os picos no tráfego foi uma tempestade perfeita.