Alguém pode explicar os "casos de uso" para os gráficos padrão munin?

Ao instalar o munin, ele ativa um conjunto padrão de plugins (pelo menos no ubuntu). Como alternativa, você pode simplesmente executar munin-node-configurepara descobrir quais plugins são suportados no seu sistema. A maioria desses plugins plotam dados diretos. Minha pergunta não é explicar a natureza dos dados (bem ... talvez para alguns), mas o que você procura nesses gráficos?

É fácil instalar munin e ver gráficos sofisticados. Mas ter os gráficos e não ser capaz de "lê-los" os torna totalmente inúteis.

Vou listar plugins padrão que são ativados por padrão no meu sistema. Então vai ser uma lista longa. Para ser completo, também vou listar os plugins que penso entender e dar uma breve explicação sobre o que acho que é usado. Fundamentos corretos se eu estiver errado com algum deles.

Então, deixe-me dividir essas perguntas em três partes:

Plugins em que eu nem entendo os dados
Plug-ins onde eu entendo os dados, mas não sei o que devo procurar
Plugins que penso entender

Plugins em que eu nem entendo os dados

Estes podem conter perguntas que não são necessariamente destinadas apenas a munin. Não entender os dados geralmente significa uma lacuna no conhecimento fundamental sobre sistemas operacionais / hardware ....;) Fique à vontade para responder com uma resposta "giyf".

Estes são plugins em que eu só posso adivinhar o que está acontecendo ... Eu quase não quero ver esses "adivinhações" ...

E /
S de disco por dispositivo (E / s) / segundo O que é um E / S. Eu sei que significa entrada / saída. Mas isso é o mais longe possível.
Latência do disco por dispositivo (espera média de E / S)
Não faz ideia do que é uma "espera E / S" ...
Tempo de serviço de IO
Esta é uma bagunça enorme e é quase impossível ver alguma coisa no gráfico.

Plug-ins onde eu entendo os dados, mas não sei o que devo procurar

IOStat (blocos / segunda leitura / escrita)
Suponho que o que devemos procurar aqui são picos? O que significaria que o dispositivo está em uso pesado?
Entropia disponível (bytes)
Suponho que isso seja importante para a geração de números aleatórios? Por que eu representaria isso? Até agora, o valor sempre foi quase constante.
VMStat (processos de suspensão / E / S em execução)
Qual é a diferença entre este e o gráfico "processos"? Ambos mostram os processos de execução / suspensão, enquanto o gráfico "Processos" parece ter mais detalhes.
Taxa de transferência de disco por dispositivo (bytes / segundo de leitura /
gravação ) Qual é a diferença entre este e o gráfico "IOStat"?
uso da tabela de inodes
O que devo procurar neste gráfico?

Plugins que penso entender

Vou adivinhar algumas coisas aqui ... me corrija se eu estiver errado.

Uso do disco em porcentagem (porcentagem)
Quanto espaço em disco é usado / restante. Como isso se aproxima de 100%, considere limpar ou estender a partição. Isso é extremamente importante para a partição raiz.
Taxa de transferência do firewall (pacotes / segundo)
O número de pacotes que passam pelo firewall. Se isso ocorrer por um longo período, pode ser um sinal de um ataque do DOS (ou estamos simplesmente recebendo um arquivo grande). Também pode lhe dar uma idéia sobre o desempenho do seu firewall. Se estiver nivelando e você precisar de mais "energia", considere o balanceamento de carga. Se estiver nivelando e houver uma correlação com a carga da CPU, isso também pode significar que seu hardware não é rápido o suficiente. Correlações com o uso do disco podem apontar para destinos de LOG excessivos na sua configuração do FW.
erros eth0 (entrada / saída de pacotes)
Erros de rede. Se esse valor estiver aumentando, pode ser um sinal de hardware defeituoso.
Tráfego eth0 (bits / segundo in / out)
Tráfego de rede não processado. Isso deve estar relacionado à taxa de transferência do Firewall.
número de threads
Um valor cada vez maior pode apontar para um processo que não fecha adequadamente os threads. Investigar!
processos
Divisão de processos ativos (incluindo suspensão). Um rápido aumento aqui pode apontar para uma bomba de garfo. Um valor lento, mas sempre crescente, pode apontar para um processo que gera subprocessos, mas não para fechá-los adequadamente. Investigue usando ps faux.
prioridade do processo
Mostra a distribuição das prioridades do processo. Ter apenas processos de alta prioridade não é muito útil. Considere a priorização de alguns.
uso da CPU
bastante simples. Se isso estiver aumentando, você pode ter um ataque em andamento ou um processo está monopolizando a CPU. Se estiver aumentando lentamente e se aproximando do máximo em operações normais, considere atualizar seu hardware (ou balanceamento de carga).
uso da tabela de arquivos
Número de arquivos abertos ativamente. Se isso estiver atingindo o máximo, você poderá abrir um processo, mas não liberar arquivos corretamente.
load average
Mostra um valor resumido para a carga do sistema. Deve estar correlacionado com o uso da CPU. Valores crescentes podem vir de várias fontes. Procure correlações com outros gráficos.
uso da memória
Uma representação gráfica da sua memória. Contanto que você tenha muitos buffers + cache + não utilizados, você estará bem.
troca in / out
Mostra a atividade na sua partição de troca. Sempre deve ser 0. Se você observar alguma atividade, adicione mais memória à sua máquina!

linux monitoring munin

— exuma
fonte

Ótima pergunta, facilmente aplicável ao Cacti e outros aplicativos gráficos. Os gráficos geralmente parecem ótimos, mas é muito difícil descobrir o que eles significam e mais como é algo que precisa de mais atenção.

— dunxd

Para o "Por que eu faria um gráfico disso? Até agora, o valor sempre foi quase constante". Em parte, lembre-se de que a maioria das informações geralmente é valiosa apenas em caso de problemas.

— 30511 Steve Jobs

E / S de disco por dispositivo (E / s)

Nos discos rígidos tradicionais, esse é um número muito importante. A operação de E / S é uma operação de leitura ou gravação no disco. Com eixos de rotação, você pode percorrer de dezenas a talvez 200 IOPS por segundo, dependendo da velocidade do disco e do seu padrão de uso.

Isso não é tudo: os sistemas operacionais modernos têm agendadores de E / S que tentam mesclar várias solicitações de E / S como uma e tornam as coisas mais rápidas dessa maneira. Além disso, os controladores RAID e assim por diante realizam alguns pedidos de E / S inteligentes.

Latência do disco por dispositivo (espera média de E / S)

Quanto tempo levou para executar a solicitação de E / S em um disco individual para realmente receber os dados a partir daí. Se isso pairar em torno de alguns milissegundos, você está bem, se são dezenas de ms, então você está começando a ver seu subsistema de disco suando, se são centenas de mais ms, você está com um grande problema ou, pelo menos, tem muito, muito sistema lento.

Tempo de Serviço de IO

O desempenho geral do seu subsistema de disco (possivelmente contendo muitos discos).

IOStat (blocos / segunda leitura / gravação)

Quantos blocos de disco foram lidos / gravados por segundo. Procure picos e também a média. Se a média começar perto da taxa de transferência máxima do seu subsistema de disco, é hora de planejar a atualização de desempenho. Na verdade, planeje assim antes desse ponto.

Entropia disponível (bytes)

Alguns aplicativos desejam obter dados aleatórios "verdadeiros". O kernel reúne essa aleatoriedade 'verdadeira' de várias fontes, como a atividade do teclado e do mouse, um gerador de números aleatórios encontrado em muitas placas-mãe ou mesmo a partir de arquivos de vídeo / música (vídeo-entropyd e audio-entropyd podem fazer isso).

Se o seu sistema ficar sem entropia, os aplicativos que desejam esses dados são interrompidos até obterem os dados. Pessoalmente, no passado, eu vi isso acontecendo com o daemon Cyrus IMAP e seu serviço POP3; ele gerou uma longa sequência aleatória antes de cada login e em um servidor ocupado que consumiu o pool de entropia muito rapidamente.

Uma maneira de se livrar desse problema é alternar os aplicativos para usar apenas dados semi-aleatórios (/ dev / urandom), mas isso não está mais neste tópico.

VMStat (processos de suspensão / E / S em execução)

Não pensei nisso antes, mas eu acho que isso mostra as estatísticas de E / S por processo, ou principalmente se elas estão executando algumas E / S ou não, e se essa E / S está bloqueando a atividade de E / S ou não.

Taxa de transferência de disco por dispositivo (bytes / segundo lido / gravado)

Isso é puramente bytes lidos / gravados por segundo e, mais frequentemente, é uma forma mais legível para humanos do que blocos , que podem variar. O tamanho do bloco pode diferir devido aos discos usados, sistema de arquivos (e suas configurações) usado e assim por diante. Às vezes, o tamanho do bloco pode ser 512 bytes, outras vezes 4096 bytes, outras vezes.

uso da tabela de inodes

Com sistemas de arquivos com inodes dinâmicos (como XFS), nada. Com sistemas de arquivos com mapas de inodes estáticos (como ext3), tudo. Se você tiver uma combinação de inodes estáticos, um grande sistema de arquivos e um grande número de diretórios e arquivos pequenos, poderá encontrar uma situação em que não poderá criar mais arquivos nessa partição, embora, em teoria, restasse muito espaço livre. Nenhum inode livre == ruim.

— Janne Pikkarainen
fonte

considerando o uso do inode. Atualmente, estou usando ext4, e os max-indodes e open-inodes nesse gráfico estão extremamente próximos (open: 31.11k tamanho da tabela: 32.12k). O que me deixaria com cerca de 1k inodes restantes. Como o sistema foi instalado recentemente, não acredito que isso aponte para um problema. O ext4 está alocando inodes dinamicamente? Eu não encontrei nada sobre isso no google ...

— exhuma

Veja df -i, ele relata o uso atual do inode. ext4 tem inodes fixo, por exemplo meus Fedora 16 relatórios para minha partição raizrootfs 3276800 238083 3038717 8% /

— Janne Pikkarainen

Hummm ... interessante. Isso sugere que o gráfico munin não está correto. Também não percebi que o gráfico munin mostra apenas um valor. Não deve mostrar um valor por sistema de arquivos para ser útil? Veja também a df -icaptura de tela ( i44.tinypic.com/oixkiq.png ) versus o munin-graph ( i39.tinypic.com/dxl64z.png )

— exhuma

... O valor no gráfico (25,57k) não é realmente visto na dfsaída.

— Exhuma

Após uma investigação mais aprofundada, vejo que o plugin munin open_inodesretira o valor de /proc/sys/fs/inode-nr. É um kernel, e não um valor do sistema de arquivos. Um pouco mais de pesquisa no Google me apontou para isso: mjmwired.net/kernel/Documentation/sysctl/fs.txt#119 A partir desse documento, eu assumiria que o limite poderia ser encontrado em inode-max. Mas esse arquivo não existe no meu sistema. É possível que isso não seja mais pertinente nos kernels mais recentes? Isso me permitiria remover este gráfico da minha instância munin!

— Exhuma