ZFS - Влияние сбоя кеш-устройства L2ARC (Nexenta)

У меня есть сервер HP ProLiant DL380 G7, работающий в качестве устройства хранения NexentaStor. Сервер имеет 36 ГБ ОЗУ, 2 контроллера SAS LSI 9211-8i (без расширителей SAS), 2 системных диска SAS, 12 дисков с данными SAS, диск горячего резервирования, кэш-память Intel X25-M L2ARC и ускоритель DDRdrive PCI ZIL. Эта система обслуживает NFS для нескольких хостов VMWare. У меня также есть около 90-100 ГБ дедуплицированных данных в массиве.

У меня было два инцидента, когда производительность неожиданно снижалась, в результате чего гости виртуальной машины и консоли Nexenta SSH/Web были недоступны и требовали полной перезагрузки массива для восстановления функциональности. В обоих случаях это был твердотельный накопитель Intel X-25M L2ARC, который вышел из строя или был отключен. NexentaStor не смог предупредить меня о сбое кеша, однако общее предупреждение ZFS FMA было видно на (не отвечающем) экране консоли.

введите описание здесь

zpool status вывод показал:

  pool: vol1
 state: ONLINE
 scan: scrub repaired 0 in 0h57m with 0 errors on Sat May 21 05:57:27 2011
config:

        NAME                        STATE     READ WRITE CKSUM
        vol1                        ONLINE       0     0     0
          mirror-0                  ONLINE       0     0     0
            c8t5000C50031B94409d0   ONLINE       0     0     0
            c9t5000C50031BBFE25d0   ONLINE       0     0     0
          mirror-1                  ONLINE       0     0     0
            c10t5000C50031D158FDd0  ONLINE       0     0     0
            c11t5000C5002C823045d0  ONLINE       0     0     0
          mirror-2                  ONLINE       0     0     0
            c12t5000C50031D91AD1d0  ONLINE       0     0     0
            c2t5000C50031D911B9d0   ONLINE       0     0     0
          mirror-3                  ONLINE       0     0     0
            c13t5000C50031BC293Dd0  ONLINE       0     0     0
            c14t5000C50031BD208Dd0  ONLINE       0     0     0
          mirror-4                  ONLINE       0     0     0
            c15t5000C50031BBF6F5d0  ONLINE       0     0     0
            c16t5000C50031D8CFADd0  ONLINE       0     0     0
          mirror-5                  ONLINE       0     0     0
            c17t5000C50031BC0E01d0  ONLINE       0     0     0
            c18t5000C5002C7CCE41d0  ONLINE       0     0     0
        logs
          c19t0d0                   ONLINE       0     0     0
        cache
          c6t5001517959467B45d0     FAULTED      2   542     0  too many errors
        spares
          c7t5000C50031CB43D9d0     AVAIL   

errors: No known data errors

Это не вызвало никаких предупреждений изнутри Nexenta.

У меня сложилось впечатление, что сбой L2ARC не повлияет на систему. Но в этом случае он, безусловно, был виновником. Я никогда не видел рекомендаций для RAID L2ARC. Полное удаление неисправного SSD с сервера вернуло меня к работе, но я обеспокоен последствиями сбоя устройства (и, возможно, отсутствием уведомлений от NexentaStor).

Редактировать - Какой сейчас SSD - накопитель для кэширования L2ARC наилучшего выбора?

3 ответа

Решение

ZFS не выполняет дисковый ввод-вывод, драйверы устройств ниже ZFS делают дисковый ввод-вывод. Если устройство не отвечает своевременно или, как в этом случае, прерывает работу всех других устройств на расширителе, это не отображается как сбой ZFS. Все, что видит ZFS - это медленный ввод / вывод.

В микропрограмме Intel X-25M есть ошибка, которая влияет на их поведение во время больших нагрузок и может вызвать штормы сброса. Эта проблема затрагивает все ОС и не может быть решена на уровне ОС. Пожалуйста, свяжитесь с поставщиком оборудования для исправлений или исправлений.

Если ожидается, что L2ARC выполнит чтение, то попытка чтения будет предпринята там. ZFS тогда полагается на драйверы нижнего уровня, чтобы сообщить об ошибке. В этом случае накопитель продолжает сбрасываться и повторять попытки в течение 5 минут, после чего ввод / вывод считается неудачным, в зависимости от драйвера, устройства и настроек времени ожидания по умолчанию. Только после того, как драйверы нижнего уровня объявят ввод-вывод неудачным, ZFS будет повторять попытку в пуле.

Бегуны проверки объема и проверки диска NexentaStor ищут дополнительные сообщения об ошибках и предупреждают вас по электронной почте и регистрируют ошибки. Средство проверки диска было улучшено в выпуске 3.1, чтобы помочь вам предупредить вас об особых условиях, возникающих из-за неработающей прошивки в SSD.

Итог: ваше оборудование неисправно и должно быть исправлено или заменено.

Вы подключаете SSD X25-M к объединительной плате? Существует известная проблема с Nexenta и доступом к L2ARC через объединительную плату. Лучше всего подключить SSD непосредственно к порту SATA на материнской плате. Убедитесь, что он настроен на использование AHCI.

Если вы используете что-то критически важное на этом сервере, я бы переключился на SLC SSD (например, X25-E или STEC SSD). При этом, вы, вероятно, будете в порядке с X25-M, если это не так.

Эд, есть несколько, которые вы можете использовать, начиная от относительно разумных по цене до чертовски дорогих. Я предпочитаю использовать твердотельные накопители SAS во всех случаях и отлично справился как с STEC, так и с Pliant. Оба теперь предлагают MLC-накопитель, который отлично работает, имеет устройство L2ARC. Пока не тестируется, но скоро появится предложение SSD от Seagate, которое является SLC SAS 2.0 и, по слухам, "не дорого". Оставайтесь в курсе....

-PB

Другие вопросы по тегам