Автоматизированное аппаратное тестирование серверов HP?
В рамках подготовки серверов мы запускаем программу HP Insight Diagnostics для тестирования оборудования. Это ручной процесс. Есть ли способ автоматизировать запуск Insight Diagnostics?
Существует программное обеспечение hpdiags с опцией "-rd:" "Запустить диагностику всех диагностируемых устройств". Из моего тестирования это мало что дает (просто читает информацию SMART с дисков). Кому-нибудь повезло больше с этим?
Аппаратное обеспечение: BladeCenter c7000 с лезвиями HP ProLiant BL460c, DL360s.
ОС: ESXi и Ubuntu.
1 ответ
Итак, я задам другой вопрос:
Почему необходимо запускать диагностику оборудования HP Insight на серверах до инициализации?
В своем комментарии выше я указал, что выигрыш в этом случае в больших средах HP ProLiant невыгоден. Я должен прояснить свои мысли по этому поводу...
В порядке убывания частоты рассмотрим типы проблем, с которыми вы обычно сталкиваетесь:
Массив хранения и диски: RAID-контроллер будет сообщать операционной системе, журналам, SNMP, электронной почте, ILO и загораться красивыми индикаторами состояния.
ОЗУ: процесс POST обнаружит состояние ОЗУ, а также информацию о системе, сообщающую ОС, журналы, SNMP, электронную почту, ILO и включит светодиодный индикатор на дисплее Insight Display (SID) на передней панели. Кроме того, я не фанат процессов записи оперативной памяти, потому что обнаружение ошибок в этих системах уже устойчиво.
Тепловая защита и вентиляторы: температура сервера и скорость вращения вентилятора регулируются МОТ. В этих системах более 30 датчиков температуры, поэтому система охлаждения чрезвычайно эффективна. Это все еще сообщает ОС, журналам, SNMP, электронной почте и SID.
Источник питания: состояние блока питания сообщается операционной системе, журналам, протоколу SNMP, электронной почте и SID, а также фактическому индикатору фактического блока питания.
Общее состояние: это легко оценить с помощью дисплея SID в дополнение к индикатору внутреннего и внешнего здоровья. Об этом также сообщается в журналах сервера, SNMP, электронной почте и МОТ.
Я не могу вспомнить какие-либо условия, которые были бы обнаружены перед развертыванием, о которых не / нельзя было бы сообщить во время выполнения или после установки ОС.
Цикл диагностики обычно не находит ничего при запуске в системе без явных предшествующих проблем. Это происходит главным образом потому, что серверу необходимо выполнить POST и загрузиться в утилиту или встроенное ПО Intelligent Provisioning для запуска утилиты.
Иными словами, любой элемент, который будет серьезным "SPOF" для сервера, вероятно, помешает системе запустить самодиагностику.
Наиболее распространенные элементы отказа все еще довольно устойчивы; диски должны быть в RAID и иметь возможность горячей замены. Вентиляторы и блоки питания также могут быть заменены в горячем режиме. Ваша оперативная память имеет пороговые значения ECC, и для большинства платформ ProLiant доступны онлайн-опции. Вы ничего не сможете сделать, чтобы вызвать сбой в этих компонентах, запустив диагностику. Добавьте тот факт, что вы используете блейд-серверы HP C7000 с внутренним резервированием, и вероятность сбоя должна быть довольно низкой.