Паузы передачи данных на RAID-контроллере LSI 9271
У меня есть сервер, оснащенный RAID-контроллером LSI 9271-8i, с 4 x 4 ТБ, организованными как RAID-5, и 1 x 8 ТБ как JBOD (который в контроллере называется RAID-0).
Когда я копирую большие объемы данных (~1 ТБ), я могу наблюдать следующее: для первых нескольких гигабайт скорость передачи хорошая и ограничена скоростью диска или сети, обычно ~100 МБ / с. Но через некоторое время передача полностью останавливается на ок. 20-30 секунд, а затем продолжается со следующим ок. 1 Гб. Я копирую множество файлов размером от 10 до 500 МБ, и во время паузы robocopy остается в файле и переходит к следующему после паузы. Таким образом, общая скорость передачи падает до ~20 МБ / с.
Во время паузы просмотр файлов дисков невозможен, и в одном случае я получил сообщение об ошибке сброса контроллера ("Контроллер обнаружил фатальную ошибку и был сброшен"). Также доступ к данным контроллера с помощью инструмента CLI невозможен во время этой паузы (результат отображается, когда пауза закончена).
Я мог наблюдать это поведение при копировании
- гигабитная сеть на том RAID-5
- гигабитная сеть на том JBOD
- JBOD для RAID-5
- RAID-5 для JBOD
Ничто не может показаться мне подозрительным: температура (диски, BBU) находится в допустимом диапазоне, температура контроллера кажется немного высокой, но также в пределах спецификации. На RAID не выполняется никаких проверок, не выполняется восстановление.
Есть догадки?
Прежде чем заменить контроллер, я хочу попытаться оптимизировать тепловую ситуацию. Похоже ли это на тепловую проблему?
Мне кажется странным, что первые 20-30 ГБ работают нормально, и паузы до этого не возникали. Если я оставлю сервер в покое на некоторое время и попытаюсь повторить, то снова несколько ГБ скопируются нормально. Единственное наивное объяснение для меня заключается в том, что контроллер перегревается. Почему контроллер, а не диски? Диски RAID-5 имеют частоту вращения 7200 об / мин и расположены очень близко друг к другу, в то время как у одного диска JBOD 5400 об / мин и много воздуха. Было бы странно, если бы у обоих были одинаковые симптомы перегрева.
2 ответа
У меня была похожая проблема с 9260-16i. Это была не температура, поскольку у меня есть два 92-мм вентилятора, дующие прямо на LSI. У меня второй сервер настроен таким же образом, и все было в порядке. Я обнаружил, что на сервере с проблемами был установлен размер полосы 64 КБ, а на рабочем сервере размер полосы 256 КБ. Я сделал резервную копию проблемного сервера и перестроил группу дисков с полосой 256 КБ, а затем отформатировал диск ОС с кластерами 64 КБ (поскольку у меня файл размером в несколько ГБ). Я без колебаний перемещал данные обратно и в основном работал на полной гигабитной скорости сетевой карты со скоростью записи более 350 ГБ в час, без остановок, без пауз.
Проблема, вероятно, связана с очисткой контроллером собственного кэша DRAM. Любой, у кого возникла такая проблема, должен попробовать установить кеш контроллера наwritethrough
скорее, чемwriteback