Temos um servidor Graphite para coletar dados por meio de collectd, statsd, JMXTrans ... Há alguns dias, frequentemente, temos falhas em nossos dados. Procurando nos dados que ainda temos, podemos ver um aumento no tamanho do cache de carbono (de 50K para 4M). Não vemos um aumento no número de métricas coletadas (o MetricsReceived é estável em cerca de 300K). Temos um aumento no número de consultas de 1000 para 1500 em média.
Estranhamente, o cpuUsage diminui ligeiramente de 100% (temos 4 CPU) para 50% quando o tamanho do cache aumenta.
Estranhamente, vemos um aumento no número de octetos lidos no disco e uma diminuição no número de octetos gravados.
Temos o carbono configurado principalmente com valores padrão:
- MAX_CACHE_SIZE = inf
- MAX_UPDATES_PER_SECOND = 5000
- MAX_CREATES_PER_MINUTE = 2000
Obviamente, algo mudou em nosso sistema, mas não entendemos o que e nem como podemos encontrar essa causa ...
Qualquer ajuda ?