Пропуск запланированных самопроверок и прогнозирование накопителя EOL

Уже несколько недель smartd сообщает, что по выходным он пропускает некоторые из запланированных самопроверок:

 24 апреля 18:29:32 calvin smartd[4758]: Устройство: /dev/sda, пропустить запланированный немедленный немедленный тест; 40% осталось от текущего самотестирования.
24 апреля 18:29:33 calvin smartd[4758]: Устройство: /dev/sdb, пропустить запланированный немедленный немедленный тест; 50% оставшегося от текущего самотестирования. 

Диски в этом массиве RAID-1 настроены на выполнение автономного тестирования четыре раза в день, короткую самопроверку в 2 часа ночи каждый день и длительную самопроверку по субботам в 2 часа ночи. По некоторым причинам, похоже, что длительное самотестирование занимает больше времени, в результате чего другие запланированные тесты пропускаются.

Первый вопрос: это признак вероятного отказа диска?

Тогда сегодня smartd сообщил, что самопроверка не удалась. Вот вывод smartctl -a /dev/sdb:

 smartctl версия 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Брюс Аллен
Домашняя страница http://smartmontools.sourceforge.net/

=== НАЧАЛО ИНФОРМАЦИОННОГО РАЗДЕЛА ===
Семейство моделей: семейство Seagate Barracuda 7200.8
Модель устройства:     ST3250823AS
Серийный номер:    3ND1GNBC
Версия прошивки: 3.03
Емкость пользователя:    250,059,350,016 байт
Устройство: в базе данных smartctl [для подробностей используйте: -P show]
Версия ATA:   7
Стандарт ATA: Точная версия спецификации спецификации ATA не указана
Местное время: вс 25 апреля 13:15:34 2010 ПО ВОСТОЧНОМУ ВРЕМЕНИ
Поддержка SMART: Доступно - устройство поддерживает SMART.
Поддержка SMART: включена

=== НАЧАЛО ПРОЧИТАЙТЕ УМНЫЙ РАЗДЕЛ ДАННЫХ ===
Результат теста самооценки SMART общего состояния здоровья: ПРОЙДЕН

Общие умные ценности:
Статус сбора данных в автономном режиме:  (0x82) Операция сбора данных в автономном режиме
     было завершено без ошибок.
     Автоматический сбор данных в автономном режиме: включен.
Состояние выполнения самопроверки:      (   0) предыдущая процедура самопроверки завершена
     без ошибок или самопроверки 
     был запущен.
Общее время для завершения в автономном режиме 
сбор данных:    ( 430) секунд.
Автономный сбор данных
Возможности:     (0x5b) SMART выполнить в автономном режиме немедленно.
     Автономный автономный сбор данных вкл / выкл.
     Приостановить Оффлайн коллекция на новый
     команда.
     Автономное сканирование поверхности поддерживается.
     Самопроверка поддерживается.
     Самопроверка транспортировки не поддерживается.
     Выборочный Самопроверка поддерживается.
Возможности SMART:            (0x0003) Сохраняет данные SMART перед вводом
     режим энергосбережения.
     Поддерживает SMART таймер автоматического сохранения.
Возможность регистрации ошибок:        (0x01) Поддерживается регистрация ошибок.
     Журнал общего назначения поддерживается.
Краткая процедура самопроверки 
Рекомендуемое время опроса:   (   1) минут.
Расширенная процедура самопроверки
Рекомендуемое время опроса:   (  84) минуты.

Номер версии структуры данных атрибутов SMART: 10
Специфичные SMART-атрибуты поставщика с пороговыми значениями:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   047   039   006 Пред-сбой Всегда -       168450357
  3 Spin_Up_Time            0x0003   098   098   000    Pre-fail Всегда -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       33
  5 Reallocated_Sector_Ct   0x0033   100   100   036 Пред-сбой Всегда -       9
  7 Seek_Error_Rate         0x000f   087   060   030    Pre-fail  Always       -       654745480
  9 Power_On_Hours          0x0032   055   055   000    Old_age   Always       -       40141
 10 Spin_Retry_Count        0x0013   100   100   097 Пред-сбой Всегда -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       51
194 Temperature_Celsius     0x0022   037   062   000    Old_age   Always       -       37 (0 17 0 0)
195 Hardware_ECC_Recovered  0x001a   047   039   000    Old_age   Always       -       168450357
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Неисправимый 0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0000   100   253   000    Old_age Офлайн -       0
202 TA_Increase_Count       0x0032   100   253   000    Old_age   Always       -       0

Версия журнала ошибок SMART: 1
Ошибки не зарегистрированы

SMART Самопроверка журнала изменений версии № 1
Num  Test_Description    Status Осталось LifeTime(часы)  LBA_of_first_error
# 1 Короткий офлайн Завершено без ошибок 00%     40131         -
# 2 Расширенное автономное завершение завершено: ошибка чтения 30%     40129         379795511
# 3 Короткий офлайн Завершено без ошибок 00%     40084         -
# 4 Короткий офлайн Завершено без ошибок 00%     40060         -
# 5 Короткий офлайн Завершено без ошибок 00%     40036         -
# 6 Короткий офлайн Завершено без ошибок 00%     40013         -
# 7 Короткий офлайн Завершено без ошибок 00%     39990         -
# 8 Расширенный автономный режим Завершено без ошибок 00%     39977         -
# 9 Короткий офлайн Завершено без ошибок 00%     39919         -
#10 Короткий офлайн Завершено без ошибок 00%     39895         -
#11 Короткий офлайн Завершено без ошибок 00%     39872         -
#12 Короткий офлайн Завершено без ошибок 00%     39848         -
#13 Короткий офлайн Завершено без ошибок 00%     39824         -
#14 Короткий офлайн Завершено без ошибок 00%     39801         -
#15 Расширенное автономное завершение завершено без ошибок 00%     39789         -
#16 Короткий офлайн Завершено без ошибок 00%     39754         -
#17 Короткий офлайн Завершено без ошибок 00%     39732         -
#18 Короткий офлайн Завершено без ошибок 00%     39707         -
#19 Короткий офлайн Завершено без ошибок 00%     39683         -
#20 Короткий офлайн Завершено без ошибок 00%     39660         -
#21 Короткий офлайн Завершено без ошибок 00% 39636 -

SMART Выборочная самопроверка журнала данных структуры редакция № 1
 SPAN  MIN_LBA  MAX_LBA  CURRENT_TEST_STATUS
    1        0        0  Not_testing
    2        0        0  Not_testing
    3        0        0  Not_testing
    4        0        0  Not_testing
    5        0        0  Not_testing
Выборочные флаги самопроверки (0x0):
  После сканирования выбранных участков НЕ читайте и не сканируйте оставшуюся часть диска.
Если при включении ожидается выборочная самопроверка, возобновите ее с 0-минутной задержкой. 

Учитывая, что этому приводу около 4,5 лет, я, вероятно, искушаю судьбу, поддерживая его в эксплуатации.

SMART, похоже, не пользуется большим уважением как надежный способ предсказать отказ диска. Что еще я могу использовать, чтобы получить раннюю индикацию отказа диска?

1 ответ

Решение

Некоторые параметры SMART, такие как количество перераспределений, обычно являются хорошими признаками будущих сбоев диска, тогда как другие параметры менее полезны. Тем не менее, SMART - это лучший способ получить информацию о надежности вашего диска на низком уровне, если у вас нет инструментов отладки, которые используют производители HD.

Если вы заинтересованы в сбоях жесткого диска на более агрегированном уровне, я предлагаю вам взглянуть на опрос, проведенный группой Google, где они также обсуждают производительность мониторинга SMART и другие важные факторы надежности HD.

Другие вопросы по тегам