Как восстановить из raid 5 сбой 2 дисков с tw_cli?

У меня есть аппаратный рейд 5 из 12 дисков, 2 из них умерли, и данные больше не доступны. Мне сказали, что хотя 2 диска умерли, некоторые данные могут быть восстановлены. Мой хостинг-провайдер заменил плохие диски новыми (при запуске они заменили работающий диск на новый, но теперь все на месте).

Я использую tw_cli и думаю, что теперь мне нужно "перестроить" массив, но я боюсь делать ошибки. Я не нашел пошагового руководства для такого случая с tw_cli.

Не могли бы вы посоветовать, что нужно сделать сейчас и каковы точные команды с tw_cli?

#tw_cli /c0/u0 show

Unit     UnitType  Status         %Cmpl  Port  Stripe  Size(GB)  Blocks
-----------------------------------------------------------------------
u0       RAID-5    INOPERABLE     -      -     256K    20489     42968510464 
u0-0     DISK      DEGRADED       -      -     -       1862.63   3906228224  
u0-1     DISK      OK             -      p1    -       1862.63   3906228224  
u0-2     DISK      OK             -      p2    -       1862.63   3906228224  
u0-3     DISK      OK             -      p3    -       1862.63   3906228224  
u0-4     DISK      OK             -      p4    -       1862.63   3906228224  
u0-5     DISK      OK             -      p5    -       1862.63   3906228224  
u0-6     DISK      OK             -      p6    -       1862.63   3906228224  
u0-7     DISK      OK             -      p7    -       1862.63   3906228224  
u0-8     DISK      OK             -      p8    -       1862.63   3906228224  
u0-9     DISK      OK             -      p9    -       1862.63   3906228224  
u0-10    DISK      OK             -      p10   -       1862.63   3906228224  
u0-11    DISK      DEGRADED       -      -     -       1862.63   3906228224  

ОС: CentOS

ОБНОВЛЕНИЕ: Как и предположил @Overmind, я снова вставил диски, он сказал, что восстановление, теперь он говорит, что не работает, но 11 из 12 дисков в порядке!

Я заменил неисправный диск (p0) на новый и попытался восстановить, но он не удался, потому что устройство занято. Есть идеи, что мне делать?

tw_cli /c0/u0 start rebuild disk=0
Sending rebuild start request to /c0/u0 on 1 disk(s) [0] ... Failed.

(0x0B:0x0033): Unit busy

Я попытался размонтировать папку в этом массиве рейдов, но это не помогло. В руководстве я прочитал, что я должен пометить диск как запасной, поэтому я сделал это, но я боюсь, что получил плохие результаты, мне действительно нужна ваша помощь здесь.

tw_cli /c0 add type=spare disk=0
Creating new unit on controller /c0 ...  Done. The new unit is /c0/u1.

# tw_cli /c0 show

Unit  UnitType  Status         %Cmpl  Stripe  Size(GB)  Cache  AVerify  IgnECC
------------------------------------------------------------------------------
u0    RAID-5    INOPERABLE     -      256K    20489     OFF    ON       OFF      
u1    SPARE     OK             -      -       1863.01   -      OFF      -        

Port   Status           Unit   Size        Blocks        Serial
---------------------------------------------------------------
p0     OK               u1     1.82 TB     3907029168    9WM0XF4D      
p1     OK               u0     1.82 TB     3907029168    53SB7TLAS     
p2     OK               u0     1.82 TB     3907029168    53SDBSXAS     
p3     OK               u0     1.82 TB     3907029168    53SB7UJAS     
p4     OK               u0     1.82 TB     3907029168    53SB7SGAS     
p5     OK               u0     1.82 TB     3907029168    53SB8BPAS     
p6     OK               u0     1.82 TB     3907029168    53VDW0PGS     
p7     OK               u0     1.82 TB     3907029168    53SDAHTAS     
p8     OK               u0     1.82 TB     3907029168    53SB7U3AS     
p9     OK               u0     1.82 TB     3907029168    53SB7UBAS     
p10    OK               u0     1.82 TB     3907029168    53VE7D5AS     
p11    OK               u0     1.82 TB     3907029168    43N2SNDGS     

Name  OnlineState  BBUReady  Status    Volt     Temp     Hours  LastCapTest
---------------------------------------------------------------------------
bbu   On           Yes       OK        OK       OK       0      xx-xxx-xxxx  

2 ответа

Контроллеры 3Ware хороши - в этом нет сомнений. Но, как отмечалось выше, RAID 5 со многими дисками является реальной проблемой. Если диски полностью утеряны и утеряны, я бы сказал, что у вас нет способа восстановления, если не использовать такой инструмент восстановления данных, как этот:

https://www.runtime.org/raid.htm

Я пытался восстановить данные для клиентов (давно), и это в лучшем случае смехотворно отнимает много времени. Даже при наличии соответствующих инструментов, когда два диска пропали, некоторые данные безвозвратно утеряны. Если можно восстановить только один из двух дисков, вам может повезти. Это позволило бы реконструкцию, и, насколько я помню, материал 3Ware достаточно хорош в этом.

Учитывая все вышесказанное, я не хочу соглашаться с предыдущими постерами, но с двумя пропавшими дисками (и с заменой этого хорошего диска тоже) я бы сказал, что ваши шансы довольно малы.

Учитывая относительно низкие цены на диски в наши дни (не считая твердотельных накопителей), в следующий раз выберите как минимум RAID 6 с горячим резервом. Наилучшим вариантом является RAID 10 с "горячим" резервом (ами), так как он обеспечивает (до) 50% отказоустойчивости и высокую скорость на вершине.

Они потерпели неудачу в одно и то же время? Что вы подразумеваете под "диски умерли"? Они механически терминированы или только имеют некоторую коррупцию на них?

В любом случае, у вас двойной сбой диска на RAID 5. Это означает, что ваши данные исчезли. Массив не может быть восстановлен.

При этом на многих дисках было логично иметь RAID6, чтобы он защищал от сбоев 2 дисков одновременно.

Единственный способ сохранить массив - это заменить первый неисправный диск и восстановить массив до второго сбоя.

Если он все еще относительно функционален, вы можете заново вставить его в RAID и попробовать оттуда перестроить (/c0/u0 start rebuild disk=p), а в случае успеха заменить его и запустить второе перестроение.

Если исходные диски не сломаны механически, но они возвращаются (оба) и запускают /c0 u1, удаляют /c0 u11, удаляют и затем / c0 повторно сканируют. Это может повторно добавить хотя бы один из них в RAID, если он будет достаточно живым.

Обратите внимание, что нотации c0/u0/p зависят от версии CLI и конфигурации sys.

Другие вопросы по тегам