Определить неисправность жесткого диска по звуку + Безопасно ли запускать smartctl на подключенном RAID1?
По сути, у меня есть два жестких диска WD в программном RAID1 (без специального оборудования):
$ lsscsi --verbose
[0:0:0:0] disk ATA WDC WD10EFRX-68F 0A82 /dev/sda
dir: /sys/bus/scsi/devices/0:0:0:0 [/sys/devices/pci0000:00/0000:00:17.0/ata1/host0/target0:0:0/0:0:0:0]
[1:0:0:0] disk ATA WDC WD10EFRX-68F 0A82 /dev/sdb
dir: /sys/bus/scsi/devices/1:0:0:0 [/sys/devices/pci0000:00/0000:00:17.0/ata2/host1/target1:0:0/1:0:0:0]
один из тех (/dev/sdb
) начал издавать перкулярный шум. я запустилSMART overall-health self-assessment test
сresult: PASSED
, вот результат:
$ sudo smartctl -a /dev/sdb
...
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x002f 200 200 051 Pre-fail Always - 0
3 Spin_Up_Time 0x0027 131 129 021 Pre-fail Always - 4450
4 Start_Stop_Count 0x0032 100 100 000 Old_age Always - 201
5 Reallocated_Sector_Ct 0x0033 200 200 140 Pre-fail Always - 0
7 Seek_Error_Rate 0x002e 100 253 000 Old_age Always - 0
9 Power_On_Hours 0x0032 075 075 000 Old_age Always - 18349
10 Spin_Retry_Count 0x0032 100 100 000 Old_age Always - 0
11 Calibration_Retry_Count 0x0032 100 100 000 Old_age Always - 0
12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 201
192 Power-Off_Retract_Count 0x0032 200 200 000 Old_age Always - 135
193 Load_Cycle_Count 0x0032 191 191 000 Old_age Always - 29322
194 Temperature_Celsius 0x0022 112 101 000 Old_age Always - 31
196 Reallocated_Event_Count 0x0032 200 200 000 Old_age Always - 0
197 Current_Pending_Sector 0x0032 200 200 000 Old_age Always - 0
198 Offline_Uncorrectable 0x0030 100 253 000 Old_age Offline - 0
199 UDMA_CRC_Error_Count 0x0032 200 200 000 Old_age Always - 0
200 Multi_Zone_Error_Rate 0x0008 100 253 000 Old_age Offline - 0
SMART Error Log Version: 1
No Errors Logged
SMART Self-test log structure revision number 1
Num Test_Description Status Remaining LifeTime(hours) LBA_of_first_error
# 1 Short offline Completed without error 00% 0 -
Выглядит нормально, да? Обратите внимание, этот RAID находится внутри сервера с большим временем безотказной работы, я думаю, я не проверял его около 70 дней, он работал нормально, поэтому, когда я добрался до него лично, я услышал неслышный звук и включил его. выключенный.
ВОПРОСЫ:
Вот звук моего HDD (не щелкает, только пилит, щелчки издаются при движении), что это может быть?
«Безопасно» ли бегать
sudo smartctl -t short /dev/sdb
? В одном ответе говорится, что это «так же безопасно, как продолжать использовать неисправный диск», однако мой вопрос здесь касается не чего-то очевидного, а проблемы RAID - может ли Linux сделать что-то нежелательное при проверке одного диска на смонтированном RAID? Из несмонтированного? Отключается ли питание на короткое время для проверки? Может ли тест повлиять на оба диска?
2 ответа
Я не могу быть уверен в вашем первом вопросе, я никогда раньше не слышал, чтобы жесткий диск издавал такой шум. Когда я услышал этот шум, это было что-то явно более низкое, чем у жесткого диска, обычно вентилятор, обычно неисправный подшипник. Если крепление диска по-прежнему прочное и ничего не касается самого диска (большинство RAID-блоков немного изолируют диск с помощью резиновых опор), то единственное, о чем я могу думать, это неисправность подшипника приводного двигателя. Я предполагаю, что оно не изменится при доступе к диску.
Я надеюсь, что у вас есть эта штука в зеркальной настройке (RAID1), а не в виде простого чередующегося набора. В этом случае вы можете потерять диск, не повредив при этом ваши данные. Я полагаю, что WD10EFRX — это диск емкостью 1 ТБ, не так ли? Это довольно дешево, возможно, если вы уверены, что это диск, стоит использовать MDADM, чтобы «вывести из строя» его, физически заменить его, а затем добавить новый диск в массив. Повторная синхронизация займет около часа, и, по моему опыту, это того стоит для душевного спокойствия. Затем вы можете взять неисправный диск и протестировать его на отдельном оборудовании, чтобы убедиться, что ваши данные не пострадали в процессе тестирования. И да, я знаю, что это тоже не отвечает на ваш второй вопрос, но это способ избежать любой возможности сбоев в ходе коротких или длинных тестов SMART.
Смысл RAID в том, что вам не придется слишком беспокоиться о выходе из строя жестких дисков.
Однако вам необходимо проводить регулярные проверки, хорошо каждую неделю или две, они будут считывать все данные со всех дисков, сравнивать их согласованность и перезаписывать любые сектора, которые не удалось прочитать (чтобы диск мог перераспределить их).
Атрибуты SMART выглядят абсолютно нормально, и только два атрибута обновляются при выполнении «автономных» тестов, остальные выдают комментарии при нормальной работе. Вы можете (и должны) периодически запускать длительный автономный тест, пока ничего не происходит, поскольку активность диска прерывает тест и заставляет его вернуться к последней контрольной точке (в противном случае тесты можно запускать в любое время).
Поэтому, если этот диск выйдет из строя, он выйдет из строя внезапно, а не постепенно.
Что вы можете сделать сейчас, так это добавить третий диск, увеличить количество зеркал до трех и просто оставить старый диск работающим. Благодаря этому вы получите лучшую производительность, и установка по-прежнему будет избыточной, если один диск выйдет из строя.
Поскольку это программный RAID, вам также необходимо будет проверить, везде ли правильно установлен ваш загрузчик.