Интерфейс управления PDU имеет низкую доступность - недостаток продукта или изолированная проблема
Наш поставщик услуг колокейшн снабдил нас коммутируемыми PDU APU AP7932 0U в составе нескольких кабинетов, которые нам предоставляют. У нас было много проблем с аспектом управления сетью этих PDU, который я опишу ниже. Мы переходим к месту в клетке в том же центре обработки данных и будем покупать наши собственные PDU для этой клетки. Я хотел бы определить, какие PDU корпоративного уровня были надежными производителями с точки зрения удаленного управления, чтобы в итоге мы не купили что-то, что выглядит хорошо на бумаге, но является кошмаром для использования.
Наши PDU, поставляемые colo, настроены на поддержку управления через веб-интерфейс SSL и через telnet. Мы обновили прошивку на всех них до текущей версии от NOV2011. Они надежно реагируют на эхо-запросы, и у нас нет причин подозревать проблему сетевого уровня. Однако мы наблюдаем частые зависания, тайм-ауты, отключения и общую недоступность встроенного управляющего хоста во всех PDU. Время от времени нам приходится перезапускать микроконтроллер на PDU для восстановления после того, что кажется случайным серьезным отказом. Розетки остаются подключенными (к счастью), но аспект управления настолько ненадежен, что он стал обязанностью оперативников - мы не можем быть уверены, что сможем попасть в PDU для включения и выключения питания хоста, если нам это понадобится. У нас есть 3 PDU, которые имеют одинаковое поведение.
Существует много производителей коммутируемых PDU корпоративного уровня, имеющих сопоставимые характеристики. Если бы я посмотрел таблицу данных для наших нынешних PDU, они бы показались вам подходящими - только мы знаем, что их можно избежать, только если вы будете страдать от их использования. Я хотел бы избежать выбора PDU, который выглядит хорошо на бумаге, но имеет аналогичные проблемы с надежностью.
Каков опыт других с переключенными PDU? Является ли этот уровень вялости нормальным?
1 ответ
То, что вы описываете, не нормально, Сорта. Тем не менее, как вы определяете доступность? У вас есть решение для мониторинга, постоянно проверяющее или проверяющее устройство?
Раньше у меня был OpenNMS, настроенный на сбор данных с устройств APC UPS и PDU. Некоторые проверки, в частности, пробники http, ftp и telnet, вызвали тайм-аут интерфейса управления, что привело к отключениям на 30-60 секунд. Может быть, это то, что вы видите.
Однако у меня никогда не было проблем со сбором SNMP. Поэтому, если это так, постарайтесь уменьшить количество попаданий на интерфейс управления и сосредоточиться только на сборе того, что вам нужно.
Отрывок из моей таблицы доступности OpenNMS на интерфейсе APC