Melhor ferramenta para monitorar backups, etc. e estatísticas de tendências a partir desses dados [fechado]


9

Eu fiz algumas pesquisas sobre nagios, opennms e zenoss, mas não estou confiante de ter encontrado o que estou procurando.

A principal força motriz para mim agora é poder monitorar backups. Isso inclui mysql, mssql e, eventualmente, alguns backups do sistema de arquivos.

Temos uma ferramenta que envolve o processo de backup desses diferentes sistemas e coleta estatísticas. Então, itens como:

  • número de bancos de dados armazenados em backup
  • tamanho do arquivo de backup db
  • tamanho do arquivo de backup db compactado
  • hora de fazer backup
  • hora de compactar o arquivo

Desejo poder: A) receber notificações se os trabalhos não forem executados de acordo com o cronograma B) ser capaz de definir limites nas estatísticas que acionariam as notificações C) Desejar apresentar tendências e representar graficamente as estatísticas

Estou planejando enviar essas informações para o aplicativo de monitoramento por meio de um HTTP POST. Ou, o aplicativo de monitoramento também pode retirá-lo de um arquivo de log.

No entanto, teremos outros processos com outras estatísticas "arbitrárias" (da perspectiva do sistema de monitoramento) que desejarão monitorar e tendências, portanto a flexibilidade é muito importante.

A ferramenta ou ferramentas também devem ser capazes de fazer monitoramento e tendências gerais de interfaces de rede, carga do servidor, etc. Assim que instalarmos o monitoramento de backup, desejaremos incluir esses itens também.

Obrigado.

Acompanhamento :

Decidi tentar o seguinte na seguinte ordem:

  • Zabbix: parecia mais um "balcão único" do que os outros e era fácil de instalar no Ubuntu Lucid RC
  • opsview
  • Nagios com nagvis, pnp4nagios, nagiosgraph
  • cactos com plugin npc
  • Munin: um pouco marcado pela simplicidade, mas isso pode vir a ser uma bênção a longo prazo

Vou postar de volta depois de tomar uma decisão, pode demorar um pouco até que isso aconteça.

Respostas:


4

Em vez de escrever sua própria solução de monitoramento, recomendo fortemente que você use uma ferramenta existente para que toda a funcionalidade básica de monitoramento e alerta já esteja implementada. Se você escolher o Nagios, obterá o monitoramento básico dos recursos do servidor e da rede gratuitamente, e os seguintes plug-ins deverão fornecer o restante do que você precisa:

check_file_ages_in_dirs informará se os arquivos de backup existem; aqui está um post que escrevi com alguns exemplos básicos.

check_file pode monitorar o tamanho e o conteúdo do arquivo (usando regexes), para que você possa gerar suas estatísticas de backup em um arquivo e monitorá-las.

A única coisa que você não obterá do Nagios é tendências e gráficos; Eu recomendo olhar para Munin para isso, pois é simples de configurar e, como o Nagios, tem pilhas de plugins contribuídos.


Apenas para esclarecimento, eu não estaria escrevendo minha própria ferramenta de monitoramento. A questão é obter recomendações para ferramentas de monitoramento / tendências que serão integradas à estrutura de backup / execução de script que eu criei.
Randy Syring

4

isso deve ser bem fácil de configurar com o zabbix.

é fácil definir limites personalizados (e muito poderosos) - você pode escrever qualquer expressão que desejar, para algo como "notifique-me se mais de 3 desses 5 servidores não tiverem um backup bem-sucedido" possível. você também pode usar 6 níveis e escalonamentos diferentes de gravidade para obter notificações e alertas flexíveis.

O zabbix possui recursos limitados de armazenamento e visualização de dados - todos os dados são armazenados em um banco de dados e, para representar graficamente uma única métrica, você não precisa de nenhuma configuração - basta obter um gráfico para ela "de graça". para armazenamento de longo prazo e tendências de uma hora são calculadas as médias.

quanto a colocar seus dados sobre backups no zabbix, existem várias possibilidades. você pode lê-lo a partir de arquivos, ativar comandos personalizados, enviá-lo da máquina monitorada usando o utilitário de linha de comando zabbix_sender ... e pode haver mais abordagens possíveis.

estender é fácil - qualquer comando personalizado que retorna dados pode ser usado para coletar, armazenar e visualizar esses dados.

é claro, é possível o monitoramento geral de sistemas operacionais, aplicativos, dispositivos snmp e ipmi e assim por diante.


1

execução

backups são orquestrados pelo backupninja . eu uso apenas um invólucro para meus scripts bash - para ter um único log de backup. cada script começa com

 function handle {
         echo Error
         error problem occured
 }
 set -e
 trap handle ERR

então eu recebo erro nos logs sempre que qualquer um dos comandos [por exemplo, mysqldump ou rsync] falhar.

todos os backups acabam no repositório rdiff, então eu tenho n dias de incrementos.

todos os backups são transmitidos usando o rsync para o servidor de armazenamento central.

no servidor de armazenamento, todos os backups são verificados diariamente e após a verificação bem-sucedida dos dados no disco local, eles são copiados para a unidade USB externa.

verificação

O backupninja.log em todos os servidores é monitorado pelo nagios. Verifico se eles contêm apenas mensagens DEBUG e INFO. qualquer outra coisa aciona o alerta.

todo backup 'toca' em um arquivo de teste, cuja presença e atualização são monitoradas no servidor central do repositório de backup com o nagios.

Além disso, dumps sql mais críticos são verificados quanto ao seu tamanho [não apenas frescura] e integridade [por exemplo, no final dos dumps do mysql, espero um novo registro de data e hora no

- Dump concluído em 22-04-2010 23:21:02

todos os arquivos rdiff são verificados diariamente antes que os dados sejam sincronizados com a unidade USB e depois novamente depois que eles são sincronizados. portanto, mesmo que a transferência noturna seja interrompida, terei repositório consistente apenas no disco USB. O resultado da verificação é registrado no arquivo cujo conteúdo e atualização são verificados pelos nagios.

discos USB são rotacionados semanalmente e são armazenados offline, apenas por precaução. isso pode ser um exagero para grandes quantidades de dados, mas funciona bem para ~ 300 GB de arquivos / despejos que mudam lentamente.

tendências

Eu uso o plugin munin personalizado simples para plotar o tamanho do diff / data para cada repositório rdiff.

O tempo necessário para executar pode ser verificado nos logs do backupninja, mas por enquanto não me preocupo com isso.


Obrigado pela resposta. Eu já tenho uma estrutura que lida com backups em execução (e outras tarefas), que coleta estatísticas, portanto, o backupninja seria um exagero. Nagios parece ser um consenso e depois munin ou cactos para tendência.
Randy Syring

1

O nagios pode fazer tendências, mas você precisa produzir perfdata ( http://nagios.sourceforge.net/docs/1_0/perfdata.html ) no seu plug-in. Se você usar um pnp4nagios http://docs.pnp4nagios.org/pnp-0.4/start , tudo será representado graficamente para você.

Eu descobri que usar o opsview http://www.opsview.org/ é muito mais fácil do que configurar o nagios e o pnp4nagios. Especialmente se você é o único administrador experiente em Linux no trabalho. Opsview é um nagios com um ótimo webui que permite quase todas as ações do navegador. Por ser nagios, você pode usar todos os plugins nagios que você estava usando no passado. Ótima ferramenta.


Obrigado pelo comentário, acho que havia descartado o opsview por algum motivo, mas com base na sua recomendação, posso acabar tentando antes de entrar nos nagios apropriados.
Randy Syring

0

O Nagios para alertas e o Cacti para gráficos, além de alguns scripts shell ou perl, farão exatamente o que você deseja. Com a combinação deles, você pode fazer praticamente qualquer coisa, dependendo da quantidade de esforço que está disposto a fazer.


Você acha que seria melhor "enviar" as estatísticas para os nagios por HTTP ou deixá-las extrair estatísticas dos arquivos de log?
Randy Syring

0

Eu recomendo o OpenNMS . O pacote é completamente de código aberto, com suporte ativo e aprimorado regularmente. Para referência, encontrei nas informações de configuração do wiki para monitorar o Symantec Backup Exec .

Do site deles ..

O OpenNMS é a primeira plataforma de gerenciamento de rede de nível empresarial do mundo desenvolvida sob o modelo de código aberto. Consiste em um projeto de código aberto suportado pela comunidade, bem como em uma organização comercial de serviços, treinamento e suporte.

Divulgação: Não tenho interesse comercial aqui, mas o proprietário do The OpenNMS Group , a "organização de serviços comerciais, treinamento e suporte" mencionados acima é um amigo meu.


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.