Когда серверы Dell PowerEdge (R210II и R620) автоматически отключаются из-за перегрева?
Я чертовски долго пытался выяснить, когда и как сервер Dell PowerEdge (в моем случае у нас есть куча R210II и R620 с iDRAC) справляется с перегревом. Я не хочу ждать, пока процессор самосохранится, и в идеале сам сервер должен выдерживать высокие температуры в течение определенного периода времени, выдавая ОС собственную команду IPMI для выключения питания до достижения критического порога. например, на 55C, введите команду IPMI для ОС, если сервер достигает 80C, отключите питание и т. д.
Проблема в том, что во всей документации Dell неясно, когда и как происходит отключение сервера из-за перегрева.
У меня вопрос: поддерживает ли Dell постепенное отключение управления температурным режимом, как это, или это какая-то мелкая распечатка или неясная документация по критической температуре, где она просто отключит свой собственный штекер? Dell OpenManage необходим для поддержки этого?
Я действительно хотел бы избежать запуска выделенного сервера управления, подключенного к различным сетям (чтобы избежать соединения между сетями через одну точку управления) для удаленного управления отключением, как это. Это будет единственная точка отказа, которая также подвержена тем же жестко закодированным или негибким тепловым условиям, что и сами мои серверы.
В моих R620 есть iDRAC. Я включил их для функций удаленного управления iDRAC, но в этот момент я разочарован тем, что iDRAC не в состоянии справиться с этим. Его тепловые настройки ограничены контролем скорости вращения вентиляторов и ужасной документацией, а в справке системы фактически не говорится, когда может произойти отключение.
Любой реальный совет с благодарностью! Спасибо.
2 ответа
Спасибо Томасу за то, что он нашел ссылку на документацию OpenManage. OMSA, который необходимо установить где-то, а затем удаленно или локально использовать для подключения к BMC, в конечном итоге устанавливает IPMI PEF. Я обнаружил, что Dell делает набор для развертывания, который в основном содержит все инструменты, которые OMSA использует для достижения этой цели.
Комплект для разработки Dell OpenManage можно найти здесь:
Версия для Linux (кажется, только 64-разрядная, раньше была 32-разрядная версия, но я не могу ее найти) включает в себя загрузочный образ для установки прошивки и т. Д., Но также получает консольное приглашение со всеми инструменты развертывания доступны. Загрузите его, запишите его, вставьте в сервер и загрузите его. По приглашению у вас есть доступ к команде 'syscfg'.
Документацию можно найти здесь, но вам нужен справочник!
http://www.dell.com/support/Manuals/us/en/19/Product/dell-opnmang-dplymnt-toolkit-v4.2
Используя команду syscfg, вы можете установить PEF, чтобы BMC запускал действие при выдаче обычного предупреждения IPMI. Текущее использование будет выглядеть так:
syscfg pcp --filter=tempfail --filteraction=powerdown
Теперь, когда IPMI обычно сообщает о временном сбое, BMC выдаст событие отключения питания. ОС должна быть проинформирована о событии через APIC и попытаться корректно отключиться. За исключением этого, встроенные тепловые пороги сделают свое дело.
Если вы знакомы с ipmitool, вы также можете проверить (и, возможно, установить PEF с его помощью, но я не пробовал) новый PEF, который вы установили с чем-то вроде этого:
ipmitool <options> pef list
Если вы наберете "Температура", вы увидите что-то вроде этого: (не могу C&P из консоли)
11 | active | 0x11 | Temperature | Any | Critical | Threshold | (0x01/0x0204),<LC,<UC | Alert,Power-off | 1
Выключение - это недавно добавленное действие PEF.
Я не понял, как правильно установить температурный порог с помощью инструментов Dell, НО я использую ipmitool!
ipmitool <options> sensor list | grep Ambient
Ambient Temp | 24.000 | degrees C | ok | na | na | 3.000 | 8.000 | 42.000 | 47.000 | na
Затем вы можете установить новый порог, основываясь на использовании параметра порога датчика ipmitool. Вот пример, где я изменяю верхний критический порог на 48C:
ipmitool <options> sensor thresh "Ambient Temp" ucr 48.000
Вы можете попробовать выдать событие верхней критической температуры вручную, но, похоже, оно только выдает событие и не подчиняется настройкам действия фильтра PEF. (выдать событие 1 проще, чем вручную определить датчик и т. д.)
ipmitool <options> event 1
Что я сделал, так это установил температуру выключения на 25C и выключил AC своей серверной комнаты на 5 минут с коллегой, пока мы все контролировали. Выключение целевого сервера прямо при 25С.
Лучшее, что я смог найти, было в ветке форумов Spiceworks. Ответ от представителя Dell:
Есть много способов сделать это. Вы правы, что по умолчанию ни один из вариантов для постепенного выключения не включен, но сервер выключится, если будет достигнут критический порог.
Вы можете установить действия по предупреждению в iDRAC/CMC. Вы можете отключить его при достижении предупреждения о температуре или критического порога. Вы также можете установить события платформы или действия оповещения в OMSA. В OMSA также есть раздел для отключения по тепловому режиму. Вы также можете настроить его для выполнения действия там. Кроме того, вы можете настроить OMSA для выполнения программы, если событие инициируется. Вы можете использовать эту функцию для запуска программы выключения в Windows.
Параметр "Выключение питания" в действиях по предупреждению является постепенным отключением. Я рекомендую отключить его на пороге предупреждения. Если вы сконфигурируете его для критического порога, он может попытаться выполнить постепенное отключение, а затем достичь критического предела и выполнить принудительное отключение, прежде чем можно будет завершить постепенное отключение.
Я также прочитал официальный PDF-файл Dell, касающийся OpenManage, с этим упоминанием о тепловом отключении:
Dell OpenManage Server Administrator (OMSA) позволяет администраторам устанавливать температурные пороги, при которых серверы должны выполнять аварийное отключение при перегреве.
Таким образом, ответ, кажется, да, серверы Dell поддерживают плавное отключение при перегреве, и эта температура настраивается. Вы можете использовать Администратор сервера OpenManage на каждом сервере для внесения этих изменений (я полагаю, что вы можете вносить эти изменения во время работы сервера). Вам не нужно устанавливать централизованный сервер управления OpenManage, хотя это может упростить множество других задач управления.
:РЕДАКТИРОВАТЬ:
Я должен добавить, что эти ответы являются общими для серверов Dell. Я не нашел ничего конкретного для перечисленных вами моделей серверов.