linux raid 1: сразу после замены и синхронизации одного диска происходит сбой другого диска - понимание того, что происходит с mdstat/mdadm

Question

linux raid 1: сразу после замены и синхронизации одного диска происходит сбой другого диска - понимание того, что происходит с mdstat/mdadm

У нас есть старый сервер Linux RAID 1 (Ubuntu Lucid 10.04) с четырьмя разделами. Несколько дней назад произошел сбой / dev / sdb, а сегодня мы заметили, что у / dev / sda были зловещие признаки SMART до сбоя (~4000 перераспределенных секторов). Мы заменили / dev / sdb этим утром и восстановили RAID на новом диске, следуя этому руководству:

http://www.howtoforge.com/replacing_hard_disks_in_a_raid1_array

Все прошло гладко до самого конца. Когда казалось, что он заканчивает синхронизацию последнего раздела, другой старый не удался. На данный момент я очень не уверен в состоянии системы. Кажется, что все работает, и файлы, кажется, все доступны, как будто все синхронизировано, но я новичок в RAID и беспокоюсь о том, что происходит.

Вывод / proc / mdstat:

Personalities : [raid1] [linear] [multipath] [raid0] [raid6] [raid5] [raid4] [raid10] 
md3 : active raid1 sdb4[2](S) sda4[0]
      478713792 blocks [2/1] [U_]

md2 : active raid1 sdb3[1] sda3[2](F)
      244140992 blocks [2/1] [_U]

md1 : active raid1 sdb2[1] sda2[2](F)
      244140992 blocks [2/1] [_U]

md0 : active raid1 sdb1[1] sda1[2](F)
      9764800 blocks [2/1] [_U]

unused devices: <none>

Получатель чего-то [_U] против [U_], Почему они не согласованы по всему массиву? Является первым U / dev / sda или /dev/sdb? (Я пытался поискать в Интернете эту тривиальную информацию, но не нашел явного указания) Если я правильно прочитал md0, [_U] должно быть /dev/sda1 (вниз) и /dev/sdb1 (вверх). Но если / dev / sda не удалось, как это может быть наоборот для md3? Я понимаю, что /dev/sdb4 теперь запасной, потому что, вероятно, он не смог синхронизировать его на 100%, но почему он показывает /dev/sda4 как вверх? Не должно ли это быть [__]? Или же [_U] тем не мение? По-видимому, SMART больше не может получить доступ к диску / dev / sda, так что я не ожидаю, что он заработает. Что не так с моей интерпретацией результатов?

Я прилагаю также выводы mdadm --detail для четырех разделов:

/dev/md0:
        Version : 00.90
  Creation Time : Fri Jan 21 18:43:07 2011
     Raid Level : raid1
     Array Size : 9764800 (9.31 GiB 10.00 GB)
  Used Dev Size : 9764800 (9.31 GiB 10.00 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 0
    Persistence : Superblock is persistent

    Update Time : Tue Nov  5 17:27:33 2013
          State : clean, degraded
 Active Devices : 1
Working Devices : 1
 Failed Devices : 1
  Spare Devices : 0

           UUID : a3b4dbbd:859bf7f2:bde36644:fcef85e2
         Events : 0.7704

    Number   Major   Minor   RaidDevice State
       0       0        0        0      removed
       1       8       17        1      active sync   /dev/sdb1

       2       8        1        -      faulty spare   /dev/sda1

/dev/md1:
        Version : 00.90
  Creation Time : Fri Jan 21 18:43:15 2011
     Raid Level : raid1
     Array Size : 244140992 (232.83 GiB 250.00 GB)
  Used Dev Size : 244140992 (232.83 GiB 250.00 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 1
    Persistence : Superblock is persistent

    Update Time : Tue Nov  5 17:39:06 2013
          State : clean, degraded
 Active Devices : 1
Working Devices : 1
 Failed Devices : 1
  Spare Devices : 0

           UUID : 8bcd5765:90dc93d5:cc70849c:224ced45
         Events : 0.1508280

    Number   Major   Minor   RaidDevice State
       0       0        0        0      removed
       1       8       18        1      active sync   /dev/sdb2

       2       8        2        -      faulty spare   /dev/sda2


/dev/md2:
        Version : 00.90
  Creation Time : Fri Jan 21 18:43:19 2011
     Raid Level : raid1
     Array Size : 244140992 (232.83 GiB 250.00 GB)
  Used Dev Size : 244140992 (232.83 GiB 250.00 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 2
    Persistence : Superblock is persistent

    Update Time : Tue Nov  5 17:46:44 2013
          State : clean, degraded
 Active Devices : 1
Working Devices : 1
 Failed Devices : 1
  Spare Devices : 0

           UUID : 2885668b:881cafed:b8275ae8:16bc7171
         Events : 0.2289636

    Number   Major   Minor   RaidDevice State
       0       0        0        0      removed
       1       8       19        1      active sync   /dev/sdb3

       2       8        3        -      faulty spare   /dev/sda3

/dev/md3:
        Version : 00.90
  Creation Time : Fri Jan 21 18:43:22 2011
     Raid Level : raid1
     Array Size : 478713792 (456.54 GiB 490.20 GB)
  Used Dev Size : 478713792 (456.54 GiB 490.20 GB)
   Raid Devices : 2
  Total Devices : 2
Preferred Minor : 3
    Persistence : Superblock is persistent

    Update Time : Tue Nov  5 17:19:20 2013
          State : clean, degraded
 Active Devices : 1
Working Devices : 2
 Failed Devices : 0
  Spare Devices : 1

    Number   Major   Minor   RaidDevice State
       0       8        4        0      active sync   /dev/sda4
       1       0        0        1      removed

       2       8       20        -      spare   /dev/sdb4

Активная синхронизация на /dev/sda4 сбивает меня с толку.

Я волнуюсь, потому что, если завтра утром мне придется заменить / dev / sda, я хочу быть уверенным, что я должен синхронизировать с тем, что и что происходит. Я также весьма озадачен тем фактом, что / dev / sda решил потерпеть неудачу именно тогда , когда рейд завершил повторную синхронизацию. Я хотел бы понять, что на самом деле происходит.

Большое спасибо за ваше терпение и помощь.

Massimo

2

linux raid mdadm drive-failure

Источник

devicerandom 05 ноя '13 в 16:50

1 ответ

Другие вопросы по тегам linux raid mdadm drive-failure

slm 22 янв '14 в 02:13 2014-01-22 02:13 · Answer 1 · 2014-01-22 02:13

Q1: порядок [U] против [U]. Почему они не согласованы по всему массиву? Первый U /dev/sda или /dev/sdb?

Порядок основан на номерах RaidDevice. Это числа в квадратных скобках строк:

md3 : active raid1 sdb4[2](S) sda4[0]
      478713792 blocks [2/1] [U_]

md2 : active raid1 sdb3[1] sda3[2](F)
      244140992 blocks [2/1] [_U]

md1 : active raid1 sdb2[1] sda2[2](F)
      244140992 blocks [2/1] [_U]

...

Для md3 устройство sda4 #0. Устройство sdb4 - это # 2. Так что U для устройства sba4. Для md2 U - для устройства sda3, #2. Таким образом, может показаться, что у вас есть проблема с sdb, поскольку ни один из этих разделов не указан как "UP". "U". Они все сообщаются как "ВНИЗ", иначе. "_".

Q2: не должно ли это быть [__]? Или [_U] в любом случае?

Выход из /proc/mdstat должно быть все [UU]ака. они все "вверх". Например, вот мой массив RAID1 с двумя членами.

$ cat /proc/mdstat
Personalities : [raid1] 
md0 : active raid1 sdb1[1] sda1[0]
      976759936 blocks [2/2] [UU]

unused devices: <none>

linux raid 1: сразу после замены и синхронизации одного диска происходит сбой другого диска - понимание того, что происходит с mdstat/mdadm

1 ответ

Рекомендации