Embora seja um post antigo, respondendo agora porque sabia que os valores limite de check_load são uma grande dor de cabeça para os novatos ..;)
Um alerta de aviso, se a CPU for 70% por 5 minutos, 60% por 10 minutos e 50% por 15 minutos. Um alerta crítico, se a CPU for 90% por 5 minutos, 80% por 10 minutos, 70% por 15 minutos.
*command[check_load]=/usr/local/nagios/libexec/check_load -w 0.7,0.6,0.5 -c 0.9,0.8,0.7*
Todas as minhas descobertas sobre a carga da CPU:
O que se entende por "carga": a Wikipedia diz:
Todos os sistemas Unix e Unix-like geram uma métrica de três números de "carga média" no kernel. Os usuários podem consultar facilmente o resultado atual de um shell Unix executando o comando uptime:
$ uptime
14:34:03 up 10:43, 4 users, load average: 0.06, 0.11, 0.09
A partir da média de carga de saída acima: 0.06, 0.11, 0.09
significa (em um sistema de CPU única):
- durante o último minuto, a CPU foi sobrecarregada em 6%
- nos últimos 5 minutos, a CPU foi subcarga 11%
- durante os últimos 15 minutos, a CPU foi subcarga 9%
.
$ uptime
14:34:03 up 10:43, 4 users, load average: 1.73, 0.50, 7.98
A média de carga acima 1.73 0.50 7.98
em um sistema de CPU única como:
- durante o último minuto, a CPU foi sobrecarregada em 73% (1 CPU com 1,73 processos executáveis, de modo que 0,73 processos tiveram que esperar uma vez)
- durante os últimos 5 minutos, a CPU foi sobrecarregada em 50% (nenhum processo precisou esperar uma vez)
- durante os últimos 15 minutos, a CPU foi sobrecarregada em 698% (1 CPU com 7,98 processos executáveis, de modo que 6,98 processos tiveram que esperar uma vez)
Cálculo do valor limite do Nagios:
Para a instalação do Nagios CPU Load, que inclui avisos e críticas:
y = c * p / 100
Onde:
y = nagios value
c = number of cores
p = wanted load procent
para um sistema de 4 núcleos:
time 5 min 10 min 15 min
warning: 90% 70% 50%
critical: 100% 80% 60%
command[check_load]=/usr/local/nagios/libexec/check_load -w 3.6,2.8,2.0 -c 4.0,3.2,2.4
Para um sistema de núcleo único:
y = p / 100
Onde:
y = nagios value
p = wanted load procent
time 5 min 10 min 15 min
warning: 70% 60% 50%
critical: 90% 80% 70%
command[check_load]=/usr/local/nagios/libexec/check_load -w 0.7,0.6,0.5 -c 0.9,0.8,0.7
Um excelente artigo sobre a análise de carga de CPU do Dr. Gunther http://www.teamquest.com/pdfs/whitepaper/ldavg1.pdf
Neste artigo on-line, o Dr. Gunther analisa o kernel do UNIX para descobrir como as médias de carga (o “Trigêmeos LA”) são calculados e quão apropriados são como métricas de planejamento de capacidade.
standard
outested
valor. Depende da carga de trabalho esperada do servidor. Se você espera uma carga alta, deve aumentar os valores. Caso contrário, seu servidor sempre aparecerá em estado crítico.