Необъяснимая крайняя медлительность на Dell PowerEdge R320, исправленная только при холодной перезагрузке

На сайте этого клиента есть два новых сервера Dell PowerEdge R320 со следующей конфигурацией:

  • Единый 6-ядерный процессор
  • 16 ГБ ОЗУ
  • 2x500 ГБ SATA-дисков в массиве RAID 1

ОС Windows Server 2012 R2, используемая в качестве контроллера домена; все прошивки и драйверы обновлены, и Windows полностью исправлена; нагрузка на систему обычно очень низкая.

Внезапно один из серверов замедлился до ползания. И под "ползать" я имею в виду "он даже не смог нарисовать окно в достойное время". Делать что-либо вообще, даже щелкать правой кнопкой мыши и показывать контекстное меню, даже перемещать курсор, было мучительной болью.

На сервере не было никакой необычной нагрузки: загрузка ЦП составляла 1-3%, использование ОЗУ ниже 4 ГБ, никаких пиков диска или сети, вообще ничего.

Также не было ошибок ни в каком журнале событий Windows (когда нам наконец удалось открыть его), и медлительность не прекращалась, когда сетевой кабель был отключен.

Перезагрузка Windows также была бесполезна: после очень долгого времени загрузки система оставалась ужасно медленной, как и раньше.

Наконец, что не менее важно, во время процедуры POST не было сообщений об ошибках ни на дисплее передней панели системы, ни на экране.

В качестве последнего средства мы решили попробовать холодную загрузку и фактически отключили кабели питания перед перезагрузкой сервера. Это устранило проблему: система загрузилась нормально и возобновила полную производительность.

Однако остается вопрос: WTF здесь произошло?!?

И, что более важно: как мы можем быть уверены, что это больше не повторится?

4 ответа

У него была идентичная проблема: после проверки журналов DSET при наличии проблемы, а затем после устранения проблем с "холодной" загрузкой поддержка Dell заявила о скачке напряжения, который в то время работал на сервере APC 1500 кВА SmartUPS.

Для сброса датчиков корпорация Dell рекомендует выполнить холодную перезагрузку (отключите питание, удерживайте кнопку питания нажатой более 3 секунд).

Поддержка также предложила установить iDrac на последнюю доступную версию 1.66.65 либо через Lifecycle (требуется перезагрузка), либо из системы Windows (не требует перезагрузки).

Это произошло несколько недель назад в течение первой недели января 2015 года, проблема не вернулась.

ESM_Firmware_3F4WV_WN64_1.66.65_A00.EXE

6-ядерный процессор Dell PowerEdge R320 24 ГБ ОЗУ 2 диска NLSAS по 1000 ГБ RAID 1

Это случилось с нашим T320. Это была ошибка в биосе. Dell выпустила обновленный BIOS, и проблема была устранена. Чтобы обойти эту проблему, нужно настроить BIOS следующим образом. В PowerEdge Bios измените профиль системы на "Оптимизированная производительность". Это отключит C-состояния и C1E. Инструкции: http://www.ponjavic.com/wordpress/2014/09/30/disable-dell-poweredge-m620-cpu-throttling/

У меня 2 Win2K12-R2 T320 с таким же оборудованием, прошивкой и драйверами. Вчера один стал мучительно медленным - обновления Windows не устанавливались в течение нескольких недель. После запуска DSET без аппаратных ошибок:

Рекомендуется технология Dell. Зайдите в BIOS на T320, перейдите в настройки профиля системы и измените "Производительность на ватт" на "Производительность".

Перезагрузка и сервер работает быстро, а производительность лучше, чем была за последние месяцы.

Я бы начал с обновления всех версий прошивки до последней доступной, включая BIOS, iDRAC/Lifecycle Controller. Это, скорее всего, проблема с настройками энергопотребления и производительности в BIOS. За подробностями обращайтесь к документации по производительности и настройке серверов Dell 12th gen.

Другие вопросы по тегам