Пропуск запланированных самопроверок и прогнозирование накопителя EOL
Уже несколько недель smartd сообщает, что по выходным он пропускает некоторые из запланированных самопроверок:
24 апреля 18:29:32 calvin smartd[4758]: Устройство: /dev/sda, пропустить запланированный немедленный немедленный тест; 40% осталось от текущего самотестирования. 24 апреля 18:29:33 calvin smartd[4758]: Устройство: /dev/sdb, пропустить запланированный немедленный немедленный тест; 50% оставшегося от текущего самотестирования.
Диски в этом массиве RAID-1 настроены на выполнение автономного тестирования четыре раза в день, короткую самопроверку в 2 часа ночи каждый день и длительную самопроверку по субботам в 2 часа ночи. По некоторым причинам, похоже, что длительное самотестирование занимает больше времени, в результате чего другие запланированные тесты пропускаются.
Первый вопрос: это признак вероятного отказа диска?
Тогда сегодня smartd сообщил, что самопроверка не удалась. Вот вывод smartctl -a /dev/sdb
:
smartctl версия 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Брюс Аллен Домашняя страница http://smartmontools.sourceforge.net/ === НАЧАЛО ИНФОРМАЦИОННОГО РАЗДЕЛА === Семейство моделей: семейство Seagate Barracuda 7200.8 Модель устройства: ST3250823AS Серийный номер: 3ND1GNBC Версия прошивки: 3.03 Емкость пользователя: 250,059,350,016 байт Устройство: в базе данных smartctl [для подробностей используйте: -P show] Версия ATA: 7 Стандарт ATA: Точная версия спецификации спецификации ATA не указана Местное время: вс 25 апреля 13:15:34 2010 ПО ВОСТОЧНОМУ ВРЕМЕНИ Поддержка SMART: Доступно - устройство поддерживает SMART. Поддержка SMART: включена === НАЧАЛО ПРОЧИТАЙТЕ УМНЫЙ РАЗДЕЛ ДАННЫХ === Результат теста самооценки SMART общего состояния здоровья: ПРОЙДЕН Общие умные ценности: Статус сбора данных в автономном режиме: (0x82) Операция сбора данных в автономном режиме было завершено без ошибок. Автоматический сбор данных в автономном режиме: включен. Состояние выполнения самопроверки: ( 0) предыдущая процедура самопроверки завершена без ошибок или самопроверки был запущен. Общее время для завершения в автономном режиме сбор данных: ( 430) секунд. Автономный сбор данных Возможности: (0x5b) SMART выполнить в автономном режиме немедленно. Автономный автономный сбор данных вкл / выкл. Приостановить Оффлайн коллекция на новый команда. Автономное сканирование поверхности поддерживается. Самопроверка поддерживается. Самопроверка транспортировки не поддерживается. Выборочный Самопроверка поддерживается. Возможности SMART: (0x0003) Сохраняет данные SMART перед вводом режим энергосбережения. Поддерживает SMART таймер автоматического сохранения. Возможность регистрации ошибок: (0x01) Поддерживается регистрация ошибок. Журнал общего назначения поддерживается. Краткая процедура самопроверки Рекомендуемое время опроса: ( 1) минут. Расширенная процедура самопроверки Рекомендуемое время опроса: ( 84) минуты. Номер версии структуры данных атрибутов SMART: 10 Специфичные SMART-атрибуты поставщика с пороговыми значениями: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000f 047 039 006 Пред-сбой Всегда - 168450357 3 Spin_Up_Time 0x0003 098 098 000 Pre-fail Всегда - 0 4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 33 5 Reallocated_Sector_Ct 0x0033 100 100 036 Пред-сбой Всегда - 9 7 Seek_Error_Rate 0x000f 087 060 030 Pre-fail Always - 654745480 9 Power_On_Hours 0x0032 055 055 000 Old_age Always - 40141 10 Spin_Retry_Count 0x0013 100 100 097 Пред-сбой Всегда - 0 12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 51 194 Temperature_Celsius 0x0022 037 062 000 Old_age Always - 37 (0 17 0 0) 195 Hardware_ECC_Recovered 0x001a 047 039 000 Old_age Always - 168450357 197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0 198 Offline_Неисправимый 0x0010 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0 200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Офлайн - 0 202 TA_Increase_Count 0x0032 100 253 000 Old_age Always - 0 Версия журнала ошибок SMART: 1 Ошибки не зарегистрированы SMART Самопроверка журнала изменений версии № 1 Num Test_Description Status Осталось LifeTime(часы) LBA_of_first_error # 1 Короткий офлайн Завершено без ошибок 00% 40131 - # 2 Расширенное автономное завершение завершено: ошибка чтения 30% 40129 379795511 # 3 Короткий офлайн Завершено без ошибок 00% 40084 - # 4 Короткий офлайн Завершено без ошибок 00% 40060 - # 5 Короткий офлайн Завершено без ошибок 00% 40036 - # 6 Короткий офлайн Завершено без ошибок 00% 40013 - # 7 Короткий офлайн Завершено без ошибок 00% 39990 - # 8 Расширенный автономный режим Завершено без ошибок 00% 39977 - # 9 Короткий офлайн Завершено без ошибок 00% 39919 - #10 Короткий офлайн Завершено без ошибок 00% 39895 - #11 Короткий офлайн Завершено без ошибок 00% 39872 - #12 Короткий офлайн Завершено без ошибок 00% 39848 - #13 Короткий офлайн Завершено без ошибок 00% 39824 - #14 Короткий офлайн Завершено без ошибок 00% 39801 - #15 Расширенное автономное завершение завершено без ошибок 00% 39789 - #16 Короткий офлайн Завершено без ошибок 00% 39754 - #17 Короткий офлайн Завершено без ошибок 00% 39732 - #18 Короткий офлайн Завершено без ошибок 00% 39707 - #19 Короткий офлайн Завершено без ошибок 00% 39683 - #20 Короткий офлайн Завершено без ошибок 00% 39660 - #21 Короткий офлайн Завершено без ошибок 00% 39636 - SMART Выборочная самопроверка журнала данных структуры редакция № 1 SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS 1 0 0 Not_testing 2 0 0 Not_testing 3 0 0 Not_testing 4 0 0 Not_testing 5 0 0 Not_testing Выборочные флаги самопроверки (0x0): После сканирования выбранных участков НЕ читайте и не сканируйте оставшуюся часть диска. Если при включении ожидается выборочная самопроверка, возобновите ее с 0-минутной задержкой.
Учитывая, что этому приводу около 4,5 лет, я, вероятно, искушаю судьбу, поддерживая его в эксплуатации.
SMART, похоже, не пользуется большим уважением как надежный способ предсказать отказ диска. Что еще я могу использовать, чтобы получить раннюю индикацию отказа диска?
1 ответ
Некоторые параметры SMART, такие как количество перераспределений, обычно являются хорошими признаками будущих сбоев диска, тогда как другие параметры менее полезны. Тем не менее, SMART - это лучший способ получить информацию о надежности вашего диска на низком уровне, если у вас нет инструментов отладки, которые используют производители HD.
Если вы заинтересованы в сбоях жесткого диска на более агрегированном уровне, я предлагаю вам взглянуть на опрос, проведенный группой Google, где они также обсуждают производительность мониторинга SMART и другие важные факторы надежности HD.