Оптимальная настройка RAID 6+0 для дисков объемом 40+ 4 ТБ

Я устанавливаю JBOD, содержащий 44 HD SAS 4 ТБ 7200 об / мин. Я выбрал RAID 60, так как предпочитаю защиту от сбоев дисков перед улучшениями производительности, предлагаемыми RAID 10. Моя проблема заключается в том, как выбрать оптимальный диск на интервал, который привел бы к разумному времени восстановления. Например, если я оставлю 4 "горячих" резерва, то получится 40 дисков для следующих возможных настроек RAID:

  • 2 раздела с 20 дисками, ~144 ТБ полезной емкости.
  • 4 пролета с 10 дисками, полезная емкость ~128 ТБ.
  • 5 дисков с 8 дисками, полезная емкость ~120 ТБ.
  • 8 дисков с 5 дисками, ~96 ТБ полезной емкости.

Я склоняюсь к 4 участкам из 10 дисков, так как он, кажется, предлагает наилучший баланс отказоустойчивости (допускается 2 из 10 сбоев дисков на допустимый промежуток) и полезной емкости (80%, по сравнению с 90% для 2 участков по 20 дисков).

Тем не менее, на что можно рассчитывать время восстановления для одного 10-дискового промежутка? Поиск в Интернете показывает, что даже 10-дисковый промежуток может оказаться невозможным, поскольку восстановление может занять слишком много времени, что может привести к дополнительному отказу диска во время восстановления. Однако многие ресурсы в Интернете основаны на меньшем количестве дисков или дисков меньшей емкости.

Любые мысли относительно того, какова оптимальная настройка для этого относительно большого количества дисков?

ПРИМЕЧАНИЕ. Существует политика резервного копирования для около 10 ТБ данных, но невозможно выполнить резервное копирование всех данных. Отсюда моя склонность к RAID 60 по сравнению с RAID10. Я понимаю, что это не заменяет резервное копирование, но лучшее восстановление после сбоя диска делает систему более надежной, предоставляя возможность перестроить, а затем перенести данные в другое хранилище в случае нескольких сбоев диска.

РЕДАКТИРОВАТЬ: Технические характеристики:

  • Диски: Seagate 4TB SAS 3.5" HDD 7200 об / мин, корпоративного класса.
  • Контроллер: контроллер ServerRAID M5016, включая RAID6, чипсет LSI2208. См.: https://www.broadcom.com/products/storage/raid-on-chip/sas-2208.
  • Корпус: накопитель Supermicro 4U JBOD 45x3,5 с резервными модулями питания 2x1400 Вт.
  • ОС: CentOS Linux выпуск 7.1.1503 (Core).

Спасибо вам за помощь.

4 ответа

Решение

С современными аппаратными RAID-контроллерами от Avago (LSI) или Microsemi (Adaptec) 20+2 дисковых RAID-массива отлично подойдут. Время восстановления разумное (менее 24 часов). В любом случае, современные накопители имеют очень низкий уровень отказов. Я бы определенно использовал 2 пролета.

С 4 ТБ 7,2 тыс. Дисков я бы рекомендовал сделать подмассивы как можно меньше - на самом деле, 5 дисков вообще не оправдывают использование RAID 6.

Мой 2c должен использовать RAID 10, где вы можете ожидать, что восстановление завершится в течение 12 часов, а 5-дисковый 20-ТБ массив RAID 6, скорее всего, этого не сделает.

Убедитесь, что вы включаете ежемесячную очистку данных / медиа-патрулирование / как там это называется, чтобы обнаруживать ошибки чтения, прежде чем они смогут остановить восстановление. Чаще всего, когда восстановление не удается, причиной является не полностью неисправный диск, а довольно старая, но необнаруженная ошибка чтения, которую можно было исправить с помощью регулярной очистки.

На таком большом массиве я бы действительно использовал RAID10 или эквивалентную зеркальную настройку ZFS. Вы можете настроить глобальные "горячие" резервы RAID10 + 2 с 42 дисками (для ~82 ТБ используемого пространства), и это обеспечит отличную защиту от сбоев диска с очень быстрым временем восстановления.

Если вы действительно, действительно хотите использовать RAID6, я склоняюсь к 5x 10 дисков.

Основываясь на полученных превосходных комментариях, я попытался использовать RAID60, состоящий из 5 пролетов по 8 дисков каждый, по следующим причинам:

  1. Основываясь на недавней перестройке, которая включала 2 участка по 20 дисков, я считаю, что время перестройки для конфигурации 8+2 было разумным.

  2. Полезная емкость незначительно уменьшается по сравнению с участками с большим количеством дисков (например, 10 или 20 дисков на участок). Хотя потеря 20 ТБ кажется значительной, меньший размер пролета означает, что восстановление будет достижимо и является приемлемым компромиссом.

Я буду обновлять этот ответ с любой дополнительной информацией, которую я собираю.

Изменить: Удаленный RAID5 в качестве жизнеспособного варианта.

Другие вопросы по тегам