Сетевая файловая система в памяти с zram + XFS + GlusterFS - лучшие практики

Несколько месяцев назад я использовал zram-устройства в формате XFS, объединенные с GlusterFS, для создания распределенной / сетевой / реплицируемой файловой системы в памяти на нескольких серверах с открытым исходным кодом (под управлением RHEL 7.2).

Я использую эту ФС как эффективный способ хранения, обслуживания и репликации изображений и видео для моего многосерверного сервера приложений. И я не смог найти никаких других решений FS в памяти, поэтому я взломал это вместе.

Он работал хорошо в течение 4 месяцев, но прошлой ночью один из серверов вышел из строя из-за повреждения XFS - и мне пришлось сделать перезагрузку ОС. Я не знаю наверняка, что эта установка была виновата.... но шансы есть.

Что приводит меня к...

1) Есть ли рекомендации, которым я должен следовать, чтобы сделать эту настройку более стабильной?

2) Могу ли я (или даже должен) настроить систему ведения журнала, чтобы я мог отслеживать состояние каждого узла zram+xfs? И знайте, что пошло не так, если случится больше сбоев.

Некоторые тесты производительности:

/ dev / loop0 = https://erlhelinfotech.wordpress.com/2013/02/20/ramdisk-service-for-systemd/

/ dev / zram0 = моя настройка zram

/dev/sdb2 = стандартный диск 7200 об / мин

тест производительности с hdparm -Tt

2 ответа

Zram редко, если когда-либо привыкнет к такому уровню производительности. Возможно, хотя и не доказано, что вы вызвали ошибку где-то в этом стеке хранения.

Гораздо более традиционным и предположительно стабильным является размещение блочных устройств на постоянном носителе. Вы можете быть удивлены производительностью некоторого твердого состояния с большим количеством оперативной памяти для кэширования. С добавленным бонусом данных, являющихся постоянными.

Вы можете настроить себя для лучшей обработки сбоев. Удаленный системный журнал, удаленная сетевая консоль, пакеты отладки ядра и вспомогательный персонал, способный разобраться во всем этом.

Не бойтесь пробовать разные компоненты, если текущая комбинация не работает. Блочная файловая система, распределенная файловая система, версия ядра.

Файловые системы в памяти не предназначены для длительного времени работы, а скорее для короткого всплеска высокой активности IOPS. Вероятно, ваш сервер обнаружил состояние отсутствия доступа и, будучи не в состоянии выгрузиться (из-за заблокированной памяти, назначенной устройству ramdrive), просто вышел из строя.

В любом случае, для мониторинга состояния вашего сервера я предлагаю вам использовать что-то вроде Zabbix. Вы также можете создать оповещение по электронной почте, которое будет вызывать нехватку памяти и / или другие ошибки.

Другие вопросы по тегам