Как я могу обнаружить отказы жесткого диска?

Я отвечаю за большое количество серверов Windows. В последнее время многие сообщают об ошибках жесткого диска с кодами событий 11 и 55. CHKDSK указывает, что с дисками в большинстве случаев все в порядке. Какие другие диагностические инструменты я могу использовать для более точного обнаружения отказов жесткого диска? Могут ли эти события Windows быть ложными срабатываниями? Я уже оценил SMART, и у него, похоже, есть значительные проблемы с чувствительностью и специфичностью.

2 ответа

Решение

Вы обнаруживаете сбои жесткого диска, отслеживая ваш RAID-контроллер (или состояние программного RAID) на наличие сбоев диска.
Когда диск выходит из строя, вы заменяете его как можно быстрее.

Все остальное является прокси для прогнозирования сбоя (что полезно, хотя и не так критично для RAID).

На данный момент нет лучшего инструмента, чем SMART, для прогнозирования сбоев (сама статья, на которую вы ссылаетесь - которая все еще является окончательной работой 6 лет спустя, - показывает определенную корреляцию между некоторыми ошибками SMART и смертностью накопителя).

Мониторинг на основе SMART страдает от высокого уровня "ложных отрицательных результатов", но положительные прогнозы сбоев можно считать чрезвычайно надежными (а ложные отрицательные значения учитываются опять же RAID).

В зависимости от производителя сервера, вероятно, существует инструмент или инструменты, предназначенные для мониторинга оборудования с центральной консоли. Dell использует Openmanage, который будет генерировать оповещения о проблемах, связанных с оборудованием. HP и IBM имеют схожие инструменты.

Другие вопросы по тегам