Idealmente, com a instalação mais simples possível e sem a necessidade de reiniciar os servidores. Principalmente DL380 G5's
se isso ajuda.
Idealmente, com a instalação mais simples possível e sem a necessidade de reiniciar os servidores. Principalmente DL380 G5's
se isso ajuda.
Respostas:
Isso depende um pouco dos sistemas operacionais em execução nos servidores, mas, em geral, é possível obter alertas dos servidores HP ProLiant e dos controladores RAID Smart Array.
A lista completa de drivers e softwares dos sistemas DL380 G5 está listada aqui .
O SNMP e uma solução de monitoramento é a melhor abordagem ... Mas você pode aumentar isso com algumas das ferramentas da HP. A HP oferece o HP Systems Insight Manager , que está disponível para download e também vem com os servidores. Isso é ideal para coleções de servidores. Se você estiver procurando alertas únicos sem criar uma infraestrutura de gerenciamento ou monitoramento, basta instalar o HP Management Agents (também conhecido como ProLiant Support Pack ).
Para sistemas Linux independentes, os agentes enviam traps por email. Normalmente, configurarei o pacote de suporte com padrões ou um pacote personalizado , depois editarei /opt/hp/hp-snmp-agents/cma.conf
e alterarei a trapemail
linha para apontar para o endereço do destinatário:
########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
# trapemail /usr/bin/logger
# will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' systems@1234.net
Se você estiver executando o Linux e não quiser instalar o conjunto de gerenciamento HP completo, poderá desenvolver um script em torno do utilitário cciss_vol_status para consultar o status do controlador / disco. Consulte também: Instalando os agentes HP no OpenFiler
ProLiant DL360 G7
servidores e o HP SIM configurado para monitoramento.
Confira o HP Insight Manager
https://www.hpe.com/us/en/product-catalog/detail/pip.489496.html#
Eu acredito que deve funcionar com seus servidores.
Eu usei o programa leve que o @ewwite mencionou em sua resposta: cciss_vol_status
Se você seguir as instruções de instalação que o acompanham, o script será inserido /usr/local/bin/cciss_vol_status
.
Aqui está um script de wrapper que eu uso para receber a saída de cciss_vol_status e enviar um email se alguma matriz tiver um status FAILED.
#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers. Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`
# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host=`hostname`
# To: email
_toemail=root
# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}
if echo $status | grep -q FAILED
then
# make sure we haven't sent a notification in the last X minutes
if test `find ${lockfile} -mmin +${_notification_freq}`
then
echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}
# update lock file mod time
/bin/touch ${lockfile}
fi
fi
Chame o script acima no cron. Eu executo a verificação a cada dois minutos:
*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh
Utilizamos o HP System Insight Manager para verificar se os nossos HP estão em funcionamento, mas nada além disso. Eu achei que o agente Linux era um exagero para nós, já que temos outras soluções de monitoramento em vigor, portanto, esse script acima serve bem a seu propósito específico.
ATUALIZAR
Apenas uma dica para solução de problemas, caso você encontre isso. Este script foi útil esta manhã quando recebi um email sobre uma matriz com falha com:
Limite de cache sujo atingido
O dispositivo foi somente leitura e não estava visível /proc/partitions
. Reiniciei o servidor e vi estas mensagens na inicialização:
Unidades lógicas desativadas devido a uma possível perda de dados. Selecione "F1" para continuar com a (s) unidade (s) lógica (s) desativada (s) Selecione "F2" para aceitar a perda de dados e reativar a (s) unidade (s) lógica (s)
Selecionei F2 e o RAID estava bom e montado na inicialização.