HP ProLiant DL360 G7 зависает на экране "Power and Thermal Calibration"

У меня есть новая система HP ProLiant DL360 G7, в которой трудно воспроизвести проблему. Сервер случайно зависает на экране " Power and Thermal Calibration in Progress... " во время процесса POST. Обычно это происходит после "горячей" загрузки / перезагрузки из установленной операционной системы.

Система останавливается на неопределенный срок в этой точке. Выполнение сброса или холодного запуска через регуляторы мощности ILO 3 обеспечивает нормальную загрузку системы без инцидентов.

Когда система находится в этом состоянии, интерфейс ILO 3 полностью доступен, и все индикаторы работоспособности системы в порядке (все зеленые). Сервер находится в центре обработки данных с климат-контролем и подключен к PDU. Температура окружающей среды составляет 64°F/17°C. Система была помещена в 24-часовой цикл тестирования компонентов до развертывания без сбоев.

Основной операционной системой для этого сервера является VMWare ESXi 5. Изначально мы пробовали 5.0, а затем сборку 5.1. Оба были развернуты через PXE boot и kickstart. Кроме того, мы проводим тестирование на установках Windows и Red Hat Linux, не использующих металлы.

Системы HP ProLiant имеют полный набор параметров BIOS. Мы пробовали настройки по умолчанию в дополнение к высокопроизводительному профилю Static. Я отключил заставку загрузки и просто получил мигающий курсор в этой точке, а не на скриншоте выше. Мы также попробовали некоторые "лучшие практики" VMWare для конфигурации BIOS. Мы видели рекомендации от HP, в которых, похоже, описана похожая проблема, но мы не решили нашу конкретную проблему.

Подозревая проблему с оборудованием, я попросил продавца отправить такую ​​же систему для доставки в тот же день. Новый сервер был полностью идентичен, за исключением дисков. Мы перенесли диски со старого сервера на новый. У нас возникла та же проблема случайной загрузки на заменяющем оборудовании.

У меня теперь оба сервера работают параллельно. Проблема случайно попадает на теплые сапоги. Холодные ботинки, кажется, не имеют проблемы. Я смотрю на некоторые из более эзотерических настроек BIOS, таких как отключение Turbo Boost или полное отключение функции калибровки мощности. Я мог бы попробовать это, но они не должны быть необходимыми.

Какие-нибудь мысли?

--редактировать--

Детали системы:

  • DL360 G7 - 2 шестнадцатеричных процессора X5670
  • 96 ГБ ОЗУ (12 x 8 ГБ DIMM низкого напряжения)
  • 2 x 146GB 15k SAS жестких дисков
  • 2 х 750 Вт резервные источники питания

Все микропрограммы обновлены до последней версии HP Service Pack для ProLiant DVD.

Позвонив в HP и проколоть интервеб, я видел упоминания о плохом взаимодействии ILO 3, но это также происходит с сервером на физической консоли. HP также предложила источник питания, но он находится в стойке центра обработки данных, которая успешно питает другие производственные системы.

Есть ли вероятность того, что это может быть плохое взаимодействие между низковольтными модулями DIMM и источниками питания 750 Вт? Этот сервер должен иметь поддерживаемую конфигурацию.

1 ответ

Решение

Итак, после того, как мы внедрили третью систему и столкнулись с той же проблемой, мы начали подвергать сомнению окружающую среду. Я выкопал копию Руководства по устранению неполадок серверов HP ProLiant и нашел блок-схему проблем с POST, показанную ниже.

Тщательно пройдя все этапы диаграммы, мы поняли, что единственной константой на всех серверах является KVM-переключатель, подключенный к аварийной тележке центра обработки данных. Это был потребительский класс KVM с поддержкой USB. В соответствии с выделенным узлом в блок-схеме, вы знаете хороший KVM? Я не мог ответить окончательно.

Итак, мы отключили серверы от KVM-коммутатора и запустили автоматическую загрузку, sleep 300; reboot последовательность в rc.local, У серверов не было проблем с этим, независимо от нормального DIMM, низковольтного DIMM, мощности блока питания и т. Д.

Все это было результатом плохого взаимодействия с USB KVM-переключателем. Благодаря тому, что это была консоль, она гарантировала, что мы увидим ошибку, если будем ее искать. Самореализующихся...

Другие вопросы по тегам