Подавить сообщения журнала о незначительных изменениях температуры диска 3ware на CentOS?
У меня есть несколько серверов CentOS 5, которые используют 3ware RAID-контроллеры.
Эти серверы сообщают моей команде сообщения о незначительных изменениях температуры, например:
Jun 8 12:32:39 HOST smartd[1231]: Device: /dev/twa0 [3ware_disk_01], SMART Usage Attribute: 194 Temperature_Celsius changed from 119 to 118
Jun 8 12:32:39 HOST smartd[1231]: Device: /dev/twa0 [3ware_disk_03], SMART Usage Attribute: 194 Temperature_Celsius changed from 122 to 121
Как я могу подавить эти сообщения?
По словам человека smartd.conf:
Чтобы отключить любой из 3 отчетов, установите соответствующий предел равным 0. Конечные нулевые аргументы могут быть опущены. По умолчанию все отчеты о температуре отключены (´-W 0´).
В моих системах smartd сообщает об изменениях температуры по умолчанию.
Я попробовал ручной подход. В /etc/smartd.conf
У меня есть следующее:
/dev/twa0 -d 3ware,1 -a -W 0
/dev/twa0 -d 3ware,3 -a -W 0
Но это все еще не подавляет сообщения.
Поскольку эти сообщения отображаются в /var/log/messages, LogWatch каждую ночь отправляет ненужные электронные письма.
1 ответ
Хорошо, поскольку мы установили, что ваши диски не тают сами по себе, потому что вы можете их трогать, я бы сказал, что у Джейсона правильная идея с настройкой LogWatch.
Прошло много времени с тех пор, как я посмотрел на LogWatch (я думаю, что он довольно паршивый и обычно отключает его), но вы, безусловно, можете отключить температурные аварийные сигналы, используя ignore.conf
( есть некоторая информация об этом в этом вопросе, а также в документации LogWatch).
Лучшим решением было бы выяснить, что именно означает значение сообщаемой температуры. Очевидно, что SMART-атрибуты температуры не определены должным образом, и даже smartctl
Страница man говорит нелестные вещи об изменчивости среди реализаций поставщиков вендоров:
Преобразование из необработанного значения в количество с физическими единицами не определяется стандартом SMART. В большинстве случаев значения, напечатанные smartctl, являются разумными. Например, атрибут температуры обычно имеет исходное значение, равное температуре в градусах Цельсия. Однако в некоторых случаях поставщики используют необычные соглашения. Например, диск Hitachi на моем ноутбуке сообщает о времени его включения в считанные минуты, а не часы. Некоторые диски IBM отслеживают три температуры, а не одну, в их исходных значениях. И так далее.
Если вы обратитесь к поставщику HD, они могут дать вам некоторое представление о том, что их диски возвращают для параметра температуры, и вы сможете научить LogWatch, когда подавать тревогу (или оставить LogWatch настроенным на игнорирование сообщений и реализацию более разумная система мониторинга для поиска реальных проблемных ситуаций).