Лучшие практики ZFS с аппаратным RAID

Если у вас есть какое-то серверное оборудование, стоит ли когда-нибудь запускать ZFS поверх аппаратного RAID1 или чего-то подобного? Следует ли отключить аппаратный RAID и запустить ZFS на mirror или raidzzpool вместо?

С отключенной функциональностью аппаратного RAID-контроллера, будут ли контроллеры SATA2 и SAS на базе аппаратного RAID более или менее скрывать ошибки чтения и записи, чем контроллеры не-RAID-оборудования?

С точки зрения ненастраиваемых серверов, если возникает ситуация, когда аппаратный RAID-контроллер эффективно не требует затрат (или даже снижает стоимость готового серверного предложения, поскольку его присутствие повышает вероятность того, что хостинговая компания предоставит дополнительный IPMI). доступ), следует ли вообще этого избегать? Но нужно ли его искать?

7 ответов

Идея ZFS состоит в том, чтобы как можно больше узнать, как ведут себя диски. Тогда от худшего к лучшему:

  • Аппаратный рейд (ZFS не имеет ни малейшего представления о реальном оборудовании),
  • Режим JBOD (проблема в том, чтобы больше о любом потенциальном расширителе: меньшая пропускная способность),
  • Режим HBA является идеальным (ZFS знает все о дисках)

Поскольку ZFS довольно параноидален в отношении аппаратного обеспечения, чем меньше он скрывается, тем больше он может справиться с любыми аппаратными проблемами. И, как отмечает Sammitch, конфигурации RAID-контроллера и ZFS могут быть очень трудными для восстановления или перенастройки в случае сбоя (например, аппаратный сбой).

Что касается вопроса о стандартизированном оборудовании с некоторым контроллером аппаратного RAID, просто будьте осторожны, чтобы аппаратный контроллер имел реальный сквозной режим или режим JBOD.

В. Если у кого-то есть какое-то серверное оборудование, всегда ли целесообразно запускать ZFS поверх аппаратного RAID1 или чего-то подобного?

О. Настоятельно предпочтительнее запускать ZFS прямо на диск и не использовать какие-либо формы RAID между ними. Независимо от того, требует ли система, которая фактически требует от вас использования карты RAID, исключение использования ZFS, больше связано с ДРУГИМИ преимуществами ZFS, чем с устойчивостью данных. Если и есть базовая карта RAID, отвечающая за предоставление одного LUN для ZFS, ZFS не собирается повышать отказоустойчивость данных. Если вашей единственной причиной, по которой вы в первую очередь выбрали ZFS, является повышение устойчивости данных, то вы просто потеряли все основания для его использования. Тем не менее, ZFS также предоставляет ARC/L2ARC, сжатие, снимки, клоны и различные другие улучшения, которые вы также можете захотеть, и в этом случае, возможно, это все еще ваша файловая система.

В. Следует ли отключить аппаратный RAID-массив и вместо этого запустить ZFS на зеркале или в raidz zpool?

О. Да, если это вообще возможно. Некоторые карты RAID допускают сквозной режим. Если он есть, это предпочтительнее.

В. С отключенной функциональностью аппаратного RAID-контроллера, будут ли контроллеры SATA2 и SAS на аппаратном RAID-уровне с большей или меньшей вероятностью скрывать ошибки чтения и записи, чем контроллеры не-RAID-оборудования?

О. Это полностью зависит от рассматриваемой карты RAID. Вам придется изучить руководство или обратиться к производителю / продавцу карты RAID, чтобы выяснить это. Некоторые из них делают очень много, да, особенно если "отключение" функциональности RAID фактически не отключает его полностью.

Q. С точки зрения ненастраиваемых серверов, если возникает ситуация, когда аппаратный RAID-контроллер эффективно нейтрален по затратам (или даже снижает стоимость готового серверного предложения, поскольку его присутствие повышает вероятность предоставления услуг хостинг-компанией). дополнительный доступ IPMI), его вообще следует избегать? Но нужно ли его искать?

О. Это почти тот же вопрос, что и ваш первый. Опять же - если ваше единственное желание использовать ZFS - это повышение устойчивости данных, а выбранная вами аппаратная платформа требует, чтобы карта RAID предоставляла один LUN для ZFS (или несколько LUN, но у вас есть полоса ZFS между ними), тогда вы делаете ничего для повышения устойчивости данных и, следовательно, ваш выбор ZFS может не подходить. Однако, если вы найдете какие-либо другие функции ZFS полезными, возможно, это все еще так.

Я хочу добавить еще одну проблему - приведенные выше ответы основаны на идее о том, что использование аппаратной карты RAID под ZFS не наносит вреда ZFS, исключая его способность повышать отказоустойчивость данных. Правда в том, что это скорее серая зона. В ZFS существуют различные настраиваемые параметры и допущения, которые не обязательно работают так же, когда передаются многодисковые LUN ​​вместо необработанных дисков. Большая часть этого может быть сведена на нет при правильной настройке, но сразу после установки вы не будете так эффективно работать с ZFS на больших RAID LUN, как если бы вы работали на отдельных шпинделях.

Кроме того, есть некоторые свидетельства того, что совершенно другой способ, которым ZFS общается с LUN в отличие от более традиционных файловых систем, часто вызывает пути кода в RAID-контроллере и рабочие нагрузки, к которым они не привыкли, что может привести к странностям. В частности, вы, вероятно, окажете себе услугу, полностью отключив функциональность ZIL в любом пуле, который вы размещаете поверх одного LUN, если вы также не предоставляете отдельное устройство регистрации, хотя, конечно, я настоятельно рекомендую вам НЕОБХОДИМО предоставить пулу отдельное устройство с необработанным журналом (если это вообще возможно, это не LUN ​​от карты RAID).

Я запускаю ZFS поверх конфигураций RAID HP ProLiant Smart Array довольно часто.

Зачем?

  • Потому что мне нравится ZFS для разделов данных, а не для загрузочных разделов.
  • Потому что загрузка Linux и ZFS, вероятно, не достаточно надежна для меня прямо сейчас.
  • Потому что контроллеры HP RAID не позволяют проходить устройства RAW. Конфигурирование нескольких томов RAID 0 отличается от RAW-дисков.
  • Поскольку объединительные платы серверов, как правило, недостаточно гибки, чтобы выделять отсеки для дисков для конкретного контроллера или распределять обязанности между двумя контроллерами. В эти дни вы чаще всего видите установки с 8 и 16 отсеками. Не всегда достаточно, чтобы сегментировать так, как должно быть.
  • Но мне все еще нравятся возможности управления громкостью ZFS. Zpool позволяет мне динамически распределять файлы и максимально использовать доступное дисковое пространство.
  • Сжатие, ARC и L2ARC - убийственные функции!
  • Правильно спроектированная установка ZFS на аппаратном RAID-массиве по-прежнему дает хорошее предупреждение и предупреждение об ошибках, но превосходит аппаратное решение.

Пример:

Конфигурация RAID-контроллера.

[root@Hapco ~]# hpacucli ctrl all show config

Smart Array P410i in Slot 0 (Embedded)    (sn: 50014380233859A0)

   array B (Solid State SATA, Unused Space: 250016  MB)
      logicaldrive 3 (325.0 GB, RAID 1+0, OK)

      physicaldrive 1I:1:3 (port 1I:box 1:bay 3, Solid State SATA, 240.0 GB, OK)
      physicaldrive 1I:1:4 (port 1I:box 1:bay 4, Solid State SATA, 240.0 GB, OK)
      physicaldrive 2I:1:7 (port 2I:box 1:bay 7, Solid State SATA, 240.0 GB, OK)
      physicaldrive 2I:1:8 (port 2I:box 1:bay 8, Solid State SATA, 240.0 GB, OK)

список блочных устройств

[root@Hapco ~]# fdisk  -l /dev/sdc

Disk /dev/sdc: 349.0 GB, 348967140864 bytes
256 heads, 63 sectors/track, 42260 cylinders
Units = cylinders of 16128 * 512 = 8257536 bytes
Sector size (logical/physical): 512 bytes / 512 bytes
I/O size (minimum/optimal): 512 bytes / 512 bytes
Disk identifier: 0x00000000

   Device Boot      Start         End      Blocks   Id  System
/dev/sdc1               1       42261   340788223   ee  GPT

конфигурация zpool

[root@Hapco ~]# zpool  list
NAME   SIZE  ALLOC   FREE    CAP  DEDUP  HEALTH  ALTROOT
vol1   324G  84.8G   239G    26%  1.00x  ONLINE  -

Zpool деталь

  pool: vol1
 state: ONLINE
  scan: scrub repaired 0 in 0h4m with 0 errors on Sun May 19 08:47:46 2013
config:

        NAME                                      STATE     READ WRITE CKSUM
        vol1                                      ONLINE       0     0     0
          wwn-0x600508b1001cc25fb5d48e3e7c918950  ONLINE       0     0     0

листинг файловой системы zfs

[root@Hapco ~]# zfs list
NAME             USED  AVAIL  REFER  MOUNTPOINT
vol1            84.8G   234G    30K  /vol1
vol1/pprovol    84.5G   234G  84.5G  -

Как правило, вы никогда не должны запускать ZFS поверх дисков, настроенных в RAID-массиве. Обратите внимание, что ZFS не должен работать в режиме RAID. Вы можете просто использовать отдельные диски. Тем не менее, практически 99% людей используют ZFS для RAID-части. Вы можете просто запустить свои диски в чередующемся режиме, но это плохое использование ZFS. Как говорили другие авторы, ZFS хочет знать много нового об оборудовании. ZFS следует подключать только к карте RAID, которую можно установить в режим JBOD или предпочтительно подключить к HBA. Перейти на канал IRC Freenode #openindiana; любой из экспертов ZFS на канале скажет вам то же самое. Попросите вашего хостинг-провайдера предоставить режим JBOD, если он не даст HBA.

Все говорят, что ZFS поверх RAID — плохая идея, даже не указывая ссылку. Но разработчики ZFS — Sun Microsystems даже рекомендуют запускать ZFS поверх HW RAID, а также на зеркальных пулах ZFS для баз данных Oracle.

Основным аргументом против HW RAID является то, что он не может обнаружить битовую гниль, как зеркало ZFS. Но это неправильно. Для этого есть T10 PI. Вы можете использовать контроллеры с поддержкой T10 PI (по крайней мере, все контроллеры LSI, которые я использовал). Большинство корпоративных дисков поддерживают T10 PI. Поэтому, если это вам подходит, вы можете создать массив с поддержкой T10 PI, создать поверх него пул ZFS без избыточности и просто убедиться, что вы следуете рекомендациям, касающимся вашего варианта использования, изложенным в статье. Хотя написано для Соляриса, ИМХО подойдет и для другой ОС.

Преимущество для меня заключается в том, что замена диска в аппаратном контроллере действительно проще (особенно в моем случае, потому что я не использую весь диск для zpool из соображений производительности). Это вообще не требует НИКАКОГО вмешательства и может быть выполнено персоналом клиента.

Обратной стороной является то, что вы должны убедиться, что покупаемые вами диски действительно отформатированы для поддержки T10 PI, поскольку некоторые из них, хотя и поддерживают T10 PI, но продаются в формате обычных дисков. Вы можете отформатировать их самостоятельно, но это не очень просто и потенциально опасно, если вы прервете процесс.

Для всех вас... ZFS поверх любого Raid - это полная боль и выполняется только MAD-людьми!... как использование ZFS без памяти ECC.

С образцами вы разберетесь лучше:

  • ZFS поверх Raid1, один диск немного изменился, когда он не был выключен... попробуйте все, что вы знаете, ZFS увидит некоторые повреждения или не будет зависеть от того, какой диск читается (контроллер Raid не увидел, что бит был изменен, и думаю, что оба диска в порядке)... если сбой произошел в части VDEV... весь ZPOOL потеряет все свои данные навсегда.
  • ZFS по сравнению с Raid0, один диск немного изменился, когда он не был выключен... попробуйте все, что вы знаете (контроллер Raid не заметил, что бит был изменен, и подумайте, что оба диска в порядке)... ZFS увидит это повреждение, но если Ошибка в части VDEV... весь ZPOOL теряет все свои данные навсегда.

ZFS хорош в обнаружении битов, которые изменились, когда диск находится без питания (RAID-контроллеры не могут этого сделать), а также когда что-то меняется без запроса и т. Д.

Это та же проблема, что и в случае, когда бит в модуле ОЗУ самопроизвольно изменяется без запроса... если память является ECC, память исправляет ее самостоятельно; если нет, то эти данные изменились, так что данные будут отправлены на измененные диски; убедитесь, что изменение не в части UDEV, если сбой произошел в части VDEV... весь ZPOOL потеряет все свои данные навсегда.

Это недостаток ZFS... Сбой VDEV означает, что все данные будут потеряны навсегда.

Аппаратный Raid и Software Raid не могут обнаружить спонтанные изменения битов, у них нет контрольных сумм, худшие на уровнях Raid1 (mirros), они читают не все части и сравнивают их, они предлагают, чтобы все части всегда имели одинаковые данные, ВСЕГДА (я говорю это громко) Raid предполагает, что данные не изменились никаким другим способом / способом... но диски (как память) подвержены спонтанным битовым изменениям.

Никогда не используйте ZFS в оперативной памяти, отличной от ECC, и никогда не используйте ZFS на рейдированных дисках, пусть ZFS просматривает все диски, не добавляйте слой, который может испортить ваш VDEV и POOL.

Как смоделировать такой сбой... выключить компьютер, вынуть один диск из этого Raid1 и изменить только один бит... разобраться и посмотреть, как контроллер Raid не может знать, что изменилось... ZFS может, потому что все чтения проверены против контрольной суммы, и если не совпадает, прочитайте другую часть... Raid никогда не читает снова, потому что происходит сбой (за исключением невозможности чтения из-за аппаратного обеспечения)... если Raid может прочитать, он думает, что данные в порядке (но в таких случаях это не так))... Raid только пытается читать с другого диска, если там, где он читает, написано: "эй, я не могу читать оттуда, аппаратный сбой"... ZFS читает с другого диска, если контрольная сумма не совпадает так же, как если бы он читал говорит "эй, я не могу читать оттуда, аппаратный сбой".

Надеюсь, я все проясню... ZFS на любом уровне Raid - это тяжелая боль и полный риск для ваших данных! а также ZFS на не-ECC памяти.

Но то, что никто не говорит (кроме меня):

  • Не используйте диски с внутренним кешем (не только те, которые имеют SHDD, а также те, которые имеют кэш от 8 до 32 МБ и т. Д.)... некоторые из них используют не-ECC память для такого кеша
  • Не используйте SATA NCQ (способ записи в очередь), потому что он может испортить ZFS при отключении питания

Так какие диски использовать?

  • Любой диск с внутренней батареей, обеспечивающий запись всех очередей, будет записан на диск в случаях сбоя питания и использует в нем память ECC (извините, таких очень мало и они дорогие).

Но, эй, большинство людей не знают всего этого и никогда не сталкивались с проблемой... Я говорю им: вау, как вам повезло, купите лотерейные билеты, пока счастливчик не ушел.

Риски есть... такие неудачи могут возникнуть совпадения... так что лучший ответ:

  • Старайтесь не размещать какой-либо слой между ZFS и местом, где действительно хранятся данные (RAM, Raid, NCQ, внутренний дисковый кеш и т. Д.)... настолько, насколько вы можете себе позволить.

Что я лично делаю?

  • Добавьте еще несколько слоев... я использую каждый 2,5-дюймовый диск SATA III 7200 об / мин в корпусе USB 3.1 Gen2 типа C, я подключаю некоторые корпуса к концентратору USB 3.1 Gen 2 типа A, который я подключаю к ПК, а другой - к другому концентратору что я подключаюсь к другому корневому порту на ПК и т. д.
  • Для системы я использую внутренние разъемы sata на ZFS (уровень Raid0), потому что я использую неизменяемую (как LiveCD) систему Linux, каждая загрузка идентичного содержимого на внутренних дисках... и у меня есть образ клона системы, которую я могу восстановить (менее 1 ГБ системы)... также я использую хитрость, чтобы система содержала файл, и использую подключенный к ОЗУ диск, на котором я клонирую его при загрузке, поэтому после загрузки вся система работает в ОЗУ... помещая такой файл в DVD я также могу загрузить таким же образом, так что в случае сбоя внутренних дисков, я просто загружаюсь с DVD, и система снова подключается... аналогичный трюк с SystemRescueCD, но немного более сложный файл ISO может быть на внутренний ZFS или просто будь настоящим DVD и я не хочу двух разных версий.

Надеюсь, я смогу немного рассказать о ZFS против Raid, это действительно больно, когда что-то идет не так!

Вкратце: использование RAID ниже ZFS просто убивает идею использования ZFS. Зачем? - Потому что он предназначен для работы на чистых дисках, а не на RAID.

Другие вопросы по тегам