Определить неисправность жесткого диска по звуку + Безопасно ли запускать smartctl на подключенном RAID1?

По сути, у меня есть два жестких диска WD в программном RAID1 (без специального оборудования):

      $ lsscsi --verbose
[0:0:0:0]    disk    ATA      WDC WD10EFRX-68F 0A82  /dev/sda 
  dir: /sys/bus/scsi/devices/0:0:0:0  [/sys/devices/pci0000:00/0000:00:17.0/ata1/host0/target0:0:0/0:0:0:0]
[1:0:0:0]    disk    ATA      WDC WD10EFRX-68F 0A82  /dev/sdb 
  dir: /sys/bus/scsi/devices/1:0:0:0  [/sys/devices/pci0000:00/0000:00:17.0/ata2/host1/target1:0:0/1:0:0:0]

один из тех (/dev/sdb) начал издавать перкулярный шум. я запустилSMART overall-health self-assessment testсresult: PASSED, вот результат:

      $ sudo smartctl -a /dev/sdb

... 

SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x002f   200   200   051    Pre-fail  Always       -       0
  3 Spin_Up_Time            0x0027   131   129   021    Pre-fail  Always       -       4450
  4 Start_Stop_Count        0x0032   100   100   000    Old_age   Always       -       201
  5 Reallocated_Sector_Ct   0x0033   200   200   140    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x002e   100   253   000    Old_age   Always       -       0
  9 Power_On_Hours          0x0032   075   075   000    Old_age   Always       -       18349
 10 Spin_Retry_Count        0x0032   100   100   000    Old_age   Always       -       0
 11 Calibration_Retry_Count 0x0032   100   100   000    Old_age   Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       201
192 Power-Off_Retract_Count 0x0032   200   200   000    Old_age   Always       -       135
193 Load_Cycle_Count        0x0032   191   191   000    Old_age   Always       -       29322
194 Temperature_Celsius     0x0022   112   101   000    Old_age   Always       -       31
196 Reallocated_Event_Count 0x0032   200   200   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0032   200   200   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0030   100   253   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x0032   200   200   000    Old_age   Always       -       0
200 Multi_Zone_Error_Rate   0x0008   100   253   000    Old_age   Offline      -       0

SMART Error Log Version: 1
No Errors Logged

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Short offline       Completed without error       00%         0         -

Выглядит нормально, да? Обратите внимание, этот RAID находится внутри сервера с большим временем безотказной работы, я думаю, я не проверял его около 70 дней, он работал нормально, поэтому, когда я добрался до него лично, я услышал неслышный звук и включил его. выключенный.

ВОПРОСЫ:

  1. Вот звук моего HDD (не щелкает, только пилит, щелчки издаются при движении), что это может быть?

  2. «Безопасно» ли бегатьsudo smartctl -t short /dev/sdb? В одном ответе говорится, что это «так же безопасно, как продолжать использовать неисправный диск», однако мой вопрос здесь касается не чего-то очевидного, а проблемы RAID - может ли Linux сделать что-то нежелательное при проверке одного диска на смонтированном RAID? Из несмонтированного? Отключается ли питание на короткое время для проверки? Может ли тест повлиять на оба диска?

2 ответа

Я не могу быть уверен в вашем первом вопросе, я никогда раньше не слышал, чтобы жесткий диск издавал такой шум. Когда я услышал этот шум, это было что-то явно более низкое, чем у жесткого диска, обычно вентилятор, обычно неисправный подшипник. Если крепление диска по-прежнему прочное и ничего не касается самого диска (большинство RAID-блоков немного изолируют диск с помощью резиновых опор), то единственное, о чем я могу думать, это неисправность подшипника приводного двигателя. Я предполагаю, что оно не изменится при доступе к диску.

Я надеюсь, что у вас есть эта штука в зеркальной настройке (RAID1), а не в виде простого чередующегося набора. В этом случае вы можете потерять диск, не повредив при этом ваши данные. Я полагаю, что WD10EFRX — это диск емкостью 1 ТБ, не так ли? Это довольно дешево, возможно, если вы уверены, что это диск, стоит использовать MDADM, чтобы «вывести из строя» его, физически заменить его, а затем добавить новый диск в массив. Повторная синхронизация займет около часа, и, по моему опыту, это того стоит для душевного спокойствия. Затем вы можете взять неисправный диск и протестировать его на отдельном оборудовании, чтобы убедиться, что ваши данные не пострадали в процессе тестирования. И да, я знаю, что это тоже не отвечает на ваш второй вопрос, но это способ избежать любой возможности сбоев в ходе коротких или длинных тестов SMART.

Смысл RAID в том, что вам не придется слишком беспокоиться о выходе из строя жестких дисков.

Однако вам необходимо проводить регулярные проверки, хорошо каждую неделю или две, они будут считывать все данные со всех дисков, сравнивать их согласованность и перезаписывать любые сектора, которые не удалось прочитать (чтобы диск мог перераспределить их).

Атрибуты SMART выглядят абсолютно нормально, и только два атрибута обновляются при выполнении «автономных» тестов, остальные выдают комментарии при нормальной работе. Вы можете (и должны) периодически запускать длительный автономный тест, пока ничего не происходит, поскольку активность диска прерывает тест и заставляет его вернуться к последней контрольной точке (в противном случае тесты можно запускать в любое время).

Поэтому, если этот диск выйдет из строя, он выйдет из строя внезапно, а не постепенно.

Что вы можете сделать сейчас, так это добавить третий диск, увеличить количество зеркал до трех и просто оставить старый диск работающим. Благодаря этому вы получите лучшую производительность, и установка по-прежнему будет избыточной, если один диск выйдет из строя.

Поскольку это программный RAID, вам также необходимо будет проверить, везде ли правильно установлен ваш загрузчик.

Другие вопросы по тегам