Ошибка восстановления MSA20 RAID5 из-за URE на другом диске

У меня MSA20 с одним дисковым массивом на 12 дисков и 3 LUN на нем (каждый рейд 5). Несколько дней назад один диск в одном из LUN вышел из строя, и я заменил его. Но восстановление raid 5 не удалось на 13%, и я вижу в отчете ADU, что один из дисков имеет "Errors Logged = 5566" и в соответствии со спецификациями SCSI это URE (Sense Code=0x11, Qualifier=0x00). В последовательном журнале я также вижу ошибку URE. Кажется, что Raid5 не может быть восстановлен из-за этого. Итак, у меня есть несколько вопросов:

  1. Есть ли способ восстановить raid 5 еще?

  2. Если я оставлю новый диск, который был заменен, и удалю диск с помощью URE, будут ли уничтожены другие LUN ​​или просто произошел сбой LUN? If all LUNs will fail what is the sense to make each LUN with own raid on one disk group array if 2 failed disk can destroy all?

  3. As I understand the preferred way is to create one disk array for one LUN in future and not one array with few LUNs?

Благодарю.

2 ответа

1) Есть ли способ восстановить?

  • Выключите массив.
  • Переустановите каждый диск один за другим.
  • Включите массив снова. Посмотрите, выйдет ли какой-нибудь из неисправных дисков в онлайн.

Следуйте Руководству по техническому обслуживанию и администрированию вашего контроллера при работе с неисправными томами.

Когда массив выключен, проверьте данные SMART на неисправных дисках. Диски могут быть помечены как неисправные, но все еще могут быть прочитаны, например, если они заканчивают зарезервированные сектора для перемещения данных.

На MSA1500cs процедура восстановления описана в главе 9 Руководства по техническому обслуживанию и обслуживанию:

Если отказоустойчивость нарушена, установка сменных жестких дисков не улучшает состояние логического устройства. Процедура повторного включения или принятия LUN, который не отвечает, выполняется в утилите конфигурирования массива (ACU) или в интерфейсе командной строки MSA (MSA-CLI).

  1. Остановите все операции ввода-вывода.

  2. Выключить систему

  3. Удалите и снова вставьте все жесткие диски и контроллеры.

  4. Включите систему

    5.1. Проверьте, отображаются ли следующие сообщения на ЖК-дисплее:

     02 ENABLE VOLUME <n>?  '<'=NO, '>'=YES
     04 ENABLE VOLUMES ? '<'=NO, '>'=YES
    

    5.2. При использовании ACU: выберите Re-enable Failed Logical Drive

    5.3. При использовании MSA-CLI: введите accept units включить все неисправные LUN.

Я считаю MSA-CLI наиболее удобным способом управления массивом.

2) Если я оставлю новый диск, который был заменен, и удалю диск с помощью URE, будут ли уничтожены другие LUN ​​или просто произошел сбой LUN?

Это зависит от логической организации ваших массивов.

Вот пример дисковой полки, разбитой на 2 дисковых массива. Один дисковый массив имеет 4 логических тома, а другой - 2 логических тома.

# hpacucli controller csn=sga0xxxx0f array all show
MSA1500 CS in MSA1500
array A
  logicaldrive 1 (2.0 TB, RAID 6 (ADG), OK)
  logicaldrive 10 (2.0 TB, RAID 5, OK)
  logicaldrive 11 (2.0 TB, RAID 5, OK)
  logicaldrive 12 (1.3 TB, RAID 5, OK)
array B
  logicaldrive 2 (2.0 TB, RAID 6 (ADG), OK)
  logicaldrive 4 (2.0 TB, RAID 6 (ADG), OK)

Отказ 2 дисков в массиве A приведет к выходу из строя логических дисков 10, 11 и 12. Логический диск 1 не выйдет из строя, так как это RAID6.

3) Как я понимаю, предпочтительным способом является создание одного дискового массива для одного LUN в будущем, а не одного массива с несколькими LUN?

Это зависит. Раздвоение логических модулей может улучшить производительность, поскольку нагрузка распределяется по всем дискам. Разделение LUN ​​на разные массивы защитит от помех между LUN как с точки зрения производительности и надежности, так и с точки зрения затрат. Часто бывает проще вырезать логические модули произвольного размера из одного большого пула, чем иметь несколько маленьких пулов.

1) Маловероятно, что вы сможете восстановить этот конкретный массив. RAID не резервный. Это одна из многих причин, почему вам нужны резервные копии.

2) Это зависит от того, как настроены логические модули. Если у вас есть один массив RAID 5 со всеми 12 дисками, которые разделены на 3 логических блока, то, поскольку массив исчез, все его логические блоки исчезли. Если у вас есть три отдельных массива RAID 5, каждый из которых состоит из 4 дисков, то только массив, содержащий эти два диска, исчезнет, ​​и остальные массивы (и, следовательно, их логические единицы) будут в порядке.

3) Это во многом зависит от того, что вы хотите сделать. Могут быть веские причины иметь отдельные массивы на отдельных дисках. Например, вы можете запретить сильно загруженному массиву замедлять работу других массивов. Если массивы находятся на одних и тех же физических дисках, вы не сможете этого сделать. Или вы можете позволить сильно загруженному массиву иметь возможность получать всю пропускную способность всех дисков. Если у вас есть отдельные массивы на разных дисках, вы не сможете этого сделать.

Также есть причины, по которым вы можете разместить несколько логических единиц в одном массиве. Возможно, вы захотите изолировать файловые системы, чтобы заполнение одной не заполняло другую.

Если вы поместите все логические единицы в один массив, вы потеряете меньше места. Один массив RAID 5 на 12 дисках по 1 ТБ позволяет использовать 11 ТБ, разделенных на три равные части, по 3,6 ТБ каждая. Если вы создадите три отдельных массива с 4 дисками по 1 ТБ, то это будет 3 ТБ каждый. Таким образом, вы должны поменять размер, чтобы получить дополнительную надежность.

Специфика вашей гибкости и влияющих на нее зависит от особенностей вашего контроллера.

И несколько советов на будущее:

  1. Рассмотрим RAID 6. Он может терпеть сбой двух дисков.

  2. Убедитесь, что ваши массивы регулярно проверяются и что неисправные диски заменяются быстро. Это значительно снизит вероятность сбоя диска во время ухудшенного состояния.

  3. RAID не резервный. Регулярно сохраняйте резервные копии на физически отдельном устройстве.

Если у вас есть данные, которые не были зарезервированы, попробуйте восстановить как можно большую их часть немедленно. Однако, если вы даже не можете установить массив, профессиональное восстановление - ваша единственная надежда.

Другие вопросы по тегам