Estou procurando uma maneira de diagnosticar problemas, como morte de swap, em que um processo de memória insuficiente preenche a troca e mata a máquina inteira (como o apache).
Eu já estou usando cactos e posso configurar nagios (embora prefira) ou munin, mas até onde eu sei, eles não podem registrar o uso de programas individuais - apenas o status geral.
Eu sei que posso rolar um script que >> para algum arquivo a cada 30s, mas eu gostaria de ver se já existe uma solução madura.
Novamente, o ideal seria:
- registrar o uso da memória dos processos a cada N segundos
- registrar o uso da CPU dos processos a cada N segundos
- gráficos e histórico de suporte
- médias de suporte - como o mysqld usou 43% da CPU no último dia e média de 400 MB de memória
- seja livre e de código aberto
Os nomes de processos não são e não devem ser conhecidos antecipadamente - a idéia é apenas deixá-lo monitorar e depois dar uma olhada nos principais infratores.
Meu sistema é Linux (OpenSUSE).