soft raid6 восстановить вторую ошибку диска

У меня произошел сбой диска в размещенной системе и был заменен неисправный диск. Во время восстановления произошла ошибка диска на другом диске.

когда произошла первоначальная ошибка:

md2 : active raid6 sdf3[5](F) sdd3[3] sdg3[6] sdc3[2] sdb3[7] sde3[4] sdd3[3] sda3[0]
      104849920 blocks super 1.2 level 6, 512k chunk, algorithm 2 [7/6] [UUUUU_U]

добавление диска после ремонта:

[email protected] ~ # mdadm /dev/md2 -a /dev/sdf3
mdadm: added /dev/sdf3
[email protected] ~ # cat /proc/mdstat
Personalities : [raid1] [raid6] [raid5] [raid4] 
md2 : active raid6 sdf3[7] sda3[0] sdg3[6] sde3[4] sdd3[3] sdc3[2]
      104849920 blocks super 1.2 level 6, 512k chunk, algorithm 2 [7/5] [U_UUU_U]
      [>....................]  recovery =  0.9% (200576/20969984) finish=5.1min speed=66858K/sec

кажется, что sda3 исчез из массива

восстановление завершено:

md2 : active raid6 sdf3[7](S) sda3[0] sdg3[6] sde3[4](F) sdd3[3] sdc3[2]
      104849920 blocks super 1.2 level 6, 512k chunk, algorithm 2 [7/4] [U_UU__U]
According to the error log the rebuild probably stopped at the error:
Jul 18 13:17:02 rescue kernel: [ 3648.976435] sd 6:0:0:0: [sde] Unhandled sense code
Jul 18 13:17:02 rescue kernel: [ 3648.976441] Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE
Jul 18 13:17:02 rescue kernel: [ 3648.976445] Sense Key : Medium Error [current] [descriptor]
Jul 18 13:17:02 rescue kernel: [ 3648.976451]         72 03 11 04 00 00 00 0c 00 0a 80 00 00 00 00 00 
Jul 18 13:17:02 rescue kernel: [ 3648.976464] sd 6:0:0:0: [sde]  
Jul 18 13:17:02 rescue kernel: [ 3648.976470] sd 6:0:0:0: [sde] CDB: 
Jul 18 13:17:02 rescue kernel: [ 3649.063660] md/raid:md2: read error not correctable (sec
tor 13785320 on sde3).
Jul 18 13:17:02 rescue kernel: [ 3649.063664] md/raid:md2: read error not correctable (sector 13785328 on sde3).
Jul 18 13:17:02 rescue kernel: [ 3649.063667] md/raid:md2: read error not correctable (sector 13785336 on sde3).
Jul 18 13:17:02 rescue kernel: [ 3649.063670] md/raid:md2: read error not correctable (sector 13785344 on sde3).
Jul 18 13:17:02 rescue kernel: [ 3649.063672] md/raid:md2: read error not correctable (sector 13785352 on sde3).
Jul 18 13:17:02 rescue kernel: [ 3649.063675] md/raid:md2: read error not correctable (sector 13785360 on sde3).
Jul 18 13:17:02 rescue kernel: [ 3649.063678] md/raid:md2: read error not correctable (sector 13785368 on sde3).
Jul 18 13:17:02 rescue kernel: [ 3649.063681] md/raid:md2: read error not correctable (sector 13785376 on sde3).
Jul 18 13:17:02 rescue kernel: [ 3649.063684] md/raid:md2: read error not correctable (sector 13785384 on sde3).
Jul 18 13:17:02 rescue kernel: [ 3649.063748] ata7: EH complete
Jul 18 13:17:02 rescue kernel: [ 3649.121786] md: md2: recovery done.

В этот момент, есть ли способ восстановить (например, добавить обратно sda3)?

2 ответа

Теперь у вас три жестких диска (не два: состояние примечания [U_UU__U]) на программном RAID6, два из которых, похоже, потерпели неудачу во время перестройки RAID. Пришло время пропустить большую часть этого оборудования и восстановить его из резервных копий.

Восстановление данных обычно возможно в этих случаях. Вы должны быть в состоянии переделать RAID в ухудшенном режиме и скопировать большую часть ваших данных, но в какой-то момент в процессе копирования RAID, вероятно, потерпит крах. В этом случае вы можете снова переделать RAID и скопировать дополнительные данные, избегая каталога, в котором произошел сбой RAID.

Или для достижения наилучших результатов вы можете взять образы дисков, которые выходят из строя. А затем выполните восстановительные работы, используя изображения.

Проверьте SMART-статус ваших дисков с помощью Smartctl. Это должно помочь вам проверить, какие диски хороши, а какие имеют проблемы.

Информация SMART плюс вывод mdadm --examine помогут определить лучший способ переделать RAID.

Другие вопросы по тегам