Как заставить серверы HP отправлять мне электронные письма в случае сбоя диска?

В идеале, с максимально простой установкой и без перезагрузки серверов. Главным образом для DL380 G5, если это помогает. Благодарю.

4 ответа

Решение

Это немного зависит от операционных систем, на которых вы работаете на серверах, но в целом можно получать оповещения от серверов HP ProLiant и RAID-контроллеров Smart Array.

Полный список драйверов и программного обеспечения для ваших систем DL380 G5 приведен здесь.

SNMP и решение для мониторинга - лучший подход... Но вы можете дополнить это некоторыми инструментами HP. HP предлагает HP Systems Insight Manager, который доступен для загрузки, а также поставляется с серверами. Это идеально подходит для коллекций серверов. Если вы ищете одноразовые оповещения без создания инфраструктуры управления или мониторинга, вы можете просто установить Агенты управления HP (также известный как ProLiant Support Pack).

Для автономных систем Linux, я заставлю агентов отправлять ловушки по электронной почте. Я обычно настраиваю пакет поддержки со значениями по умолчанию или пользовательским комплектом, затем редактирую /opt/hp/hp-snmp-agents/cma.conf и изменить trapemail строка для указания адреса получателя:

########################################################################
# trapemail is used for configuring email command(s) which will be
# executed whenever a SNMP trap is generated.
# Multiple trapemail lines are allowed.
# Note: any command that reads standard input can be used. For example:
#             trapemail /usr/bin/logger
#       will log trap messages into system log (/var/log/messages).
########################################################################
trapemail /bin/mail -s 'HP Insight Management Agents Trap Alarm' systems@1234.net

Если вы работаете в Linux и не хотите устанавливать полный пакет управления HP, вы можете разработать скрипт для утилиты cciss_vol_status для запроса состояния контроллера / диска. См. Также: Установка агентов HP на OpenFiler.

Проверьте HP Insight Manager

https://www.hpe.com/us/en/product-catalog/detail/pip.489496.html

Я считаю, что это должно работать с вашими серверами.

Я использовал облегченную программу, которую @ewwite упомянул в своем ответе: cciss_vol_status

Если вы будете следовать сопровождающим инструкциям INSTALL, сценарий будет /usr/local/bin/cciss_vol_status,

Вот скрипт-обертка, который я использую для получения вывода cciss_vol_status и отправки электронного письма, если какой-либо массив имеет состояние FAILED.

#!/bin/bash
#
# Check status of RAID volumes on HP Smart Array controllers.  Send an email
# alert if any volumes have a FAILED status.
#
status=`/usr/local/bin/cciss_vol_status /dev/sd*`

# email lock file
lockfile=/tmp/raid.check.hp.smartarray.lock
# how often to send an email (minutes)
_notification_freq=59
_host=`hostname`
# To: email
_toemail=root

# create email lock file
[ ! -f ${lockfile} ] && /bin/touch ${lockfile}

if echo $status | grep -q FAILED
then
    # make sure we haven't sent a notification in the last X minutes
    if test `find ${lockfile} -mmin +${_notification_freq}`
    then
        echo -e "${status}" | /bin/mail -s "System Alert! RAID failure on ${_host}" ${_toemail}

        # update lock file mod time
        /bin/touch ${lockfile}
    fi
fi

Вызовите вышеуказанный скрипт в cron. Я запускаю проверку каждые две минуты:

*/2 * * * * /usr/local/bin/raid.check.hp.smartarray.sh

Мы используем HP System Insight Manager, чтобы проверить, работают ли наши HP, но ничего кроме этого. Я обнаружил, что агент Linux является для нас излишним, поскольку у нас есть другие решения для мониторинга, поэтому приведенный выше скрипт хорошо подходит для своей конкретной цели.

ОБНОВИТЬ

Просто совет по устранению неполадок на случай, если вы столкнетесь с этим. Этот скрипт оказался полезным сегодня утром, когда я получил письмо о сбойном массиве с:

Достигнут грязный предел кэша

Устройство прошло только для чтения и не было видно в /proc/partitions, Я перезагрузил сервер и увидел эти сообщения при загрузке:

Логический диск отключен из-за возможной потери данных. Выберите "F1", чтобы продолжить с отключенными логическими дисками. Выберите "F2", чтобы принять потерю данных и повторно включить логические диски.

Я выбрал F2 и RAID был в порядке и смонтирован при загрузке.

Установить smartmontools. Письма вам, прежде чем диск не удается.

Другие вопросы по тегам