Пропуск запланированных самопроверок и прогнозирование накопителя EOL
Уже несколько недель smartd сообщает, что по выходным он пропускает некоторые из запланированных самопроверок:
24 апреля 18:29:32 calvin smartd[4758]: Устройство: /dev/sda, пропустить запланированный немедленный немедленный тест; 40% осталось от текущего самотестирования. 24 апреля 18:29:33 calvin smartd[4758]: Устройство: /dev/sdb, пропустить запланированный немедленный немедленный тест; 50% оставшегося от текущего самотестирования.
Диски в этом массиве RAID-1 настроены на выполнение автономного тестирования четыре раза в день, короткую самопроверку в 2 часа ночи каждый день и длительную самопроверку по субботам в 2 часа ночи. По некоторым причинам, похоже, что длительное самотестирование занимает больше времени, в результате чего другие запланированные тесты пропускаются.
Первый вопрос: это признак вероятного отказа диска?
Тогда сегодня smartd сообщил, что самопроверка не удалась. Вот вывод smartctl -a /dev/sdb:
smartctl версия 5.38 [i686-pc-linux-gnu] Copyright (C) 2002-8 Брюс Аллен
Домашняя страница http://smartmontools.sourceforge.net/
=== НАЧАЛО ИНФОРМАЦИОННОГО РАЗДЕЛА ===
Семейство моделей: семейство Seagate Barracuda 7200.8
Модель устройства: ST3250823AS
Серийный номер: 3ND1GNBC
Версия прошивки: 3.03
Емкость пользователя: 250,059,350,016 байт
Устройство: в базе данных smartctl [для подробностей используйте: -P show]
Версия ATA: 7
Стандарт ATA: Точная версия спецификации спецификации ATA не указана
Местное время: вс 25 апреля 13:15:34 2010 ПО ВОСТОЧНОМУ ВРЕМЕНИ
Поддержка SMART: Доступно - устройство поддерживает SMART.
Поддержка SMART: включена
=== НАЧАЛО ПРОЧИТАЙТЕ УМНЫЙ РАЗДЕЛ ДАННЫХ ===
Результат теста самооценки SMART общего состояния здоровья: ПРОЙДЕН
Общие умные ценности:
Статус сбора данных в автономном режиме: (0x82) Операция сбора данных в автономном режиме
было завершено без ошибок.
Автоматический сбор данных в автономном режиме: включен.
Состояние выполнения самопроверки: ( 0) предыдущая процедура самопроверки завершена
без ошибок или самопроверки
был запущен.
Общее время для завершения в автономном режиме
сбор данных: ( 430) секунд.
Автономный сбор данных
Возможности: (0x5b) SMART выполнить в автономном режиме немедленно.
Автономный автономный сбор данных вкл / выкл.
Приостановить Оффлайн коллекция на новый
команда.
Автономное сканирование поверхности поддерживается.
Самопроверка поддерживается.
Самопроверка транспортировки не поддерживается.
Выборочный Самопроверка поддерживается.
Возможности SMART: (0x0003) Сохраняет данные SMART перед вводом
режим энергосбережения.
Поддерживает SMART таймер автоматического сохранения.
Возможность регистрации ошибок: (0x01) Поддерживается регистрация ошибок.
Журнал общего назначения поддерживается.
Краткая процедура самопроверки
Рекомендуемое время опроса: ( 1) минут.
Расширенная процедура самопроверки
Рекомендуемое время опроса: ( 84) минуты.
Номер версии структуры данных атрибутов SMART: 10
Специфичные SMART-атрибуты поставщика с пороговыми значениями:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE ОБНОВЛЕНО WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 047 039 006 Пред-сбой Всегда - 168450357
3 Spin_Up_Time 0x0003 098 098 000 Pre-fail Всегда - 0
4 Start_Stop_Count 0x0032 100 100 020 Old_age Always - 33
5 Reallocated_Sector_Ct 0x0033 100 100 036 Пред-сбой Всегда - 9
7 Seek_Error_Rate 0x000f 087 060 030 Pre-fail Always - 654745480
9 Power_On_Hours 0x0032 055 055 000 Old_age Always - 40141
10 Spin_Retry_Count 0x0013 100 100 097 Пред-сбой Всегда - 0
12 Power_Cycle_Count 0x0032 100 100 020 Old_age Always - 51
194 Temperature_Celsius 0x0022 037 062 000 Old_age Always - 37 (0 17 0 0)
195 Hardware_ECC_Recovered 0x001a 047 039 000 Old_age Always - 168450357
197 Current_Pending_Sector 0x0012 100 100 000 Old_age Always - 0
198 Offline_Неисправимый 0x0010 100 100 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0000 100 253 000 Old_age Офлайн - 0
202 TA_Increase_Count 0x0032 100 253 000 Old_age Always - 0
Версия журнала ошибок SMART: 1
Ошибки не зарегистрированы
SMART Самопроверка журнала изменений версии № 1
Num Test_Description Status Осталось LifeTime(часы) LBA_of_first_error
# 1 Короткий офлайн Завершено без ошибок 00% 40131 -
# 2 Расширенное автономное завершение завершено: ошибка чтения 30% 40129 379795511
# 3 Короткий офлайн Завершено без ошибок 00% 40084 -
# 4 Короткий офлайн Завершено без ошибок 00% 40060 -
# 5 Короткий офлайн Завершено без ошибок 00% 40036 -
# 6 Короткий офлайн Завершено без ошибок 00% 40013 -
# 7 Короткий офлайн Завершено без ошибок 00% 39990 -
# 8 Расширенный автономный режим Завершено без ошибок 00% 39977 -
# 9 Короткий офлайн Завершено без ошибок 00% 39919 -
#10 Короткий офлайн Завершено без ошибок 00% 39895 -
#11 Короткий офлайн Завершено без ошибок 00% 39872 -
#12 Короткий офлайн Завершено без ошибок 00% 39848 -
#13 Короткий офлайн Завершено без ошибок 00% 39824 -
#14 Короткий офлайн Завершено без ошибок 00% 39801 -
#15 Расширенное автономное завершение завершено без ошибок 00% 39789 -
#16 Короткий офлайн Завершено без ошибок 00% 39754 -
#17 Короткий офлайн Завершено без ошибок 00% 39732 -
#18 Короткий офлайн Завершено без ошибок 00% 39707 -
#19 Короткий офлайн Завершено без ошибок 00% 39683 -
#20 Короткий офлайн Завершено без ошибок 00% 39660 -
#21 Короткий офлайн Завершено без ошибок 00% 39636 -
SMART Выборочная самопроверка журнала данных структуры редакция № 1
SPAN MIN_LBA MAX_LBA CURRENT_TEST_STATUS
1 0 0 Not_testing
2 0 0 Not_testing
3 0 0 Not_testing
4 0 0 Not_testing
5 0 0 Not_testing
Выборочные флаги самопроверки (0x0):
После сканирования выбранных участков НЕ читайте и не сканируйте оставшуюся часть диска.
Если при включении ожидается выборочная самопроверка, возобновите ее с 0-минутной задержкой. Учитывая, что этому приводу около 4,5 лет, я, вероятно, искушаю судьбу, поддерживая его в эксплуатации.
SMART, похоже, не пользуется большим уважением как надежный способ предсказать отказ диска. Что еще я могу использовать, чтобы получить раннюю индикацию отказа диска?
1 ответ
Некоторые параметры SMART, такие как количество перераспределений, обычно являются хорошими признаками будущих сбоев диска, тогда как другие параметры менее полезны. Тем не менее, SMART - это лучший способ получить информацию о надежности вашего диска на низком уровне, если у вас нет инструментов отладки, которые используют производители HD.
Если вы заинтересованы в сбоях жесткого диска на более агрегированном уровне, я предлагаю вам взглянуть на опрос, проведенный группой Google, где они также обсуждают производительность мониторинга SMART и другие важные факторы надежности HD.