Embora sejam ótimas ferramentas, Munin e outras interfaces do RRDTool (como Cacti ou Ganglia) têm problemas de E / S e dificilmente escalam quando você monitora centenas de nós.
Existem algumas técnicas para lidar com esse gargalo de E / S. Uma dessas técnicas é espalhar gravações em um grande número de discos para reduzir a E / S em cada disco. Por outro lado, muitos administradores de sistema usam os sistemas de arquivos tmpfs para lidar com esse problema. O RRDCached também é uma opção recente e boa para lidar com isso, e eu recomendo que você dê uma olhada nesses slides .
Eu não estou tão familiarizado com Munin, mas o Cacti tem um plugin Boost . Este plug-in armazena em cache os dados na memória e executa atualizações em massa e sob demanda no disco, em vez de gravações individuais, reduzindo assim a E / S. Tenho certeza de que Munin também tem algo assim.
Se você puder pagar, os discos SSD também são boas opções.
Por último, mas não menos importante, você também pode dar uma olhada no Reconnoiter . O Recconoiter é uma nova ferramenta de detecção de gráfico de falhas e gráficos / tendências. Diferentemente da maioria das ferramentas de tendências, o Reconnoiter não é baseado no RRDTool e tenta resolver esse problema específico. Não estou usando o Reconnoiter em produção, mas fiz alguns testes e, apesar de ainda ser um pouco "verde", parece realmente promissor, principalmente em relação à sua escalabilidade.
Espero que isto ajude!