Подавить сообщения журнала о незначительных изменениях температуры диска 3ware на CentOS?

У меня есть несколько серверов CentOS 5, которые используют 3ware RAID-контроллеры.

Эти серверы сообщают моей команде сообщения о незначительных изменениях температуры, например:

Jun  8 12:32:39 HOST smartd[1231]: Device: /dev/twa0 [3ware_disk_01], SMART Usage Attribute: 194 Temperature_Celsius changed from 119 to 118 
Jun  8 12:32:39 HOST smartd[1231]: Device: /dev/twa0 [3ware_disk_03], SMART Usage Attribute: 194 Temperature_Celsius changed from 122 to 121 

Как я могу подавить эти сообщения?

По словам человека smartd.conf:

Чтобы отключить любой из 3 отчетов, установите соответствующий предел равным 0. Конечные нулевые аргументы могут быть опущены. По умолчанию все отчеты о температуре отключены (´-W 0´).

В моих системах smartd сообщает об изменениях температуры по умолчанию.

Я попробовал ручной подход. В /etc/smartd.confУ меня есть следующее:

/dev/twa0 -d 3ware,1 -a -W 0
/dev/twa0 -d 3ware,3 -a -W 0

Но это все еще не подавляет сообщения.

Поскольку эти сообщения отображаются в /var/log/messages, LogWatch каждую ночь отправляет ненужные электронные письма.

1 ответ

Решение

Хорошо, поскольку мы установили, что ваши диски не тают сами по себе, потому что вы можете их трогать, я бы сказал, что у Джейсона правильная идея с настройкой LogWatch.
Прошло много времени с тех пор, как я посмотрел на LogWatch (я думаю, что он довольно паршивый и обычно отключает его), но вы, безусловно, можете отключить температурные аварийные сигналы, используя ignore.conf ( есть некоторая информация об этом в этом вопросе, а также в документации LogWatch).


Лучшим решением было бы выяснить, что именно означает значение сообщаемой температуры. Очевидно, что SMART-атрибуты температуры не определены должным образом, и даже smartctl Страница man говорит нелестные вещи об изменчивости среди реализаций поставщиков вендоров:

Преобразование из необработанного значения в количество с физическими единицами не определяется стандартом SMART. В большинстве случаев значения, напечатанные smartctl, являются разумными. Например, атрибут температуры обычно имеет исходное значение, равное температуре в градусах Цельсия. Однако в некоторых случаях поставщики используют необычные соглашения. Например, диск Hitachi на моем ноутбуке сообщает о времени его включения в считанные минуты, а не часы. Некоторые диски IBM отслеживают три температуры, а не одну, в их исходных значениях. И так далее.

Если вы обратитесь к поставщику HD, они могут дать вам некоторое представление о том, что их диски возвращают для параметра температуры, и вы сможете научить LogWatch, когда подавать тревогу (или оставить LogWatch настроенным на игнорирование сообщений и реализацию более разумная система мониторинга для поиска реальных проблемных ситуаций).

Другие вопросы по тегам