Необъяснимая крайняя медлительность на Dell PowerEdge R320, исправленная только при холодной перезагрузке
На сайте этого клиента есть два новых сервера Dell PowerEdge R320 со следующей конфигурацией:
- Единый 6-ядерный процессор
- 16 ГБ ОЗУ
- 2x500 ГБ SATA-дисков в массиве RAID 1
ОС Windows Server 2012 R2, используемая в качестве контроллера домена; все прошивки и драйверы обновлены, и Windows полностью исправлена; нагрузка на систему обычно очень низкая.
Внезапно один из серверов замедлился до ползания. И под "ползать" я имею в виду "он даже не смог нарисовать окно в достойное время". Делать что-либо вообще, даже щелкать правой кнопкой мыши и показывать контекстное меню, даже перемещать курсор, было мучительной болью.
На сервере не было никакой необычной нагрузки: загрузка ЦП составляла 1-3%, использование ОЗУ ниже 4 ГБ, никаких пиков диска или сети, вообще ничего.
Также не было ошибок ни в каком журнале событий Windows (когда нам наконец удалось открыть его), и медлительность не прекращалась, когда сетевой кабель был отключен.
Перезагрузка Windows также была бесполезна: после очень долгого времени загрузки система оставалась ужасно медленной, как и раньше.
Наконец, что не менее важно, во время процедуры POST не было сообщений об ошибках ни на дисплее передней панели системы, ни на экране.
В качестве последнего средства мы решили попробовать холодную загрузку и фактически отключили кабели питания перед перезагрузкой сервера. Это устранило проблему: система загрузилась нормально и возобновила полную производительность.
Однако остается вопрос: WTF здесь произошло?!?
И, что более важно: как мы можем быть уверены, что это больше не повторится?
4 ответа
У него была идентичная проблема: после проверки журналов DSET при наличии проблемы, а затем после устранения проблем с "холодной" загрузкой поддержка Dell заявила о скачке напряжения, который в то время работал на сервере APC 1500 кВА SmartUPS.
Для сброса датчиков корпорация Dell рекомендует выполнить холодную перезагрузку (отключите питание, удерживайте кнопку питания нажатой более 3 секунд).
Поддержка также предложила установить iDrac на последнюю доступную версию 1.66.65 либо через Lifecycle (требуется перезагрузка), либо из системы Windows (не требует перезагрузки).
Это произошло несколько недель назад в течение первой недели января 2015 года, проблема не вернулась.
ESM_Firmware_3F4WV_WN64_1.66.65_A00.EXE
6-ядерный процессор Dell PowerEdge R320 24 ГБ ОЗУ 2 диска NLSAS по 1000 ГБ RAID 1
Это случилось с нашим T320. Это была ошибка в биосе. Dell выпустила обновленный BIOS, и проблема была устранена. Чтобы обойти эту проблему, нужно настроить BIOS следующим образом. В PowerEdge Bios измените профиль системы на "Оптимизированная производительность". Это отключит C-состояния и C1E. Инструкции: http://www.ponjavic.com/wordpress/2014/09/30/disable-dell-poweredge-m620-cpu-throttling/
У меня 2 Win2K12-R2 T320 с таким же оборудованием, прошивкой и драйверами. Вчера один стал мучительно медленным - обновления Windows не устанавливались в течение нескольких недель. После запуска DSET без аппаратных ошибок:
Рекомендуется технология Dell. Зайдите в BIOS на T320, перейдите в настройки профиля системы и измените "Производительность на ватт" на "Производительность".
Перезагрузка и сервер работает быстро, а производительность лучше, чем была за последние месяцы.
Я бы начал с обновления всех версий прошивки до последней доступной, включая BIOS, iDRAC/Lifecycle Controller. Это, скорее всего, проблема с настройками энергопотребления и производительности в BIOS. За подробностями обращайтесь к документации по производительности и настройке серверов Dell 12th gen.