Сервер Solaris 10, похоже, отключается сам

Каждые несколько недель один из наших серверов Solaris 10 перестает отвечать на запросы. Я могу подключиться к порту 22 и получить баннер SSH, но на самом деле я не могу установить SSH-соединение с ним. Это Dell R610, поэтому я вхожу в систему через консоль DRAC, и в то время как я могу нажать Enter и получить новую строку, но всякий раз, когда я пытаюсь выполнить команду, такую ​​как "prstat", консоль зависает, и я не могу Control-C или что-либо еще. Я также не могу отправить ему CTRL-ALT-DEL для корректной перезагрузки, и в итоге приходится выполнять удаленный жесткий цикл питания.

Ничего странного в журналах не появляется, и мы попытались настроить crons для захвата и добавления выводов prstat, iostat, vmstat, sar и т. Д. В файл каждую минуту, чтобы попытаться выяснить, что вызывает это, но все, что мы видим, это то, что машина хорошо, а потом все кажется, чтобы остановиться.

Мы также рисуем метрики в Cacti и ничего не видим. Как я уже сказал, все нормально, а затем данные просто останавливаются.

Проблема повторилась прошлой ночью, и мы обнаружили в "последнем" выводе, что машина, кажется, начинает выключаться за пару часов до того, как она перестает отвечать (никто не выключает ее), вот результат:

перезагрузка системы boot вт 23 нояб. 17:24<- вот где я его перезагрузил. перезагрузить систему вниз вт 23 ноября 15:01

В DRAC нет аварийных сигналов окружающей среды или шасси.

Я проверил наличие каких-либо крон и т. Д., Которые могли бы как-то отключить сервер, на самом деле ничего не вижу. Я хочу включить audd, но для этого требуется перезагрузка, и это основная производственная система.

Кто-нибудь может дать совет?

Dell R610 Solaris 10 5/09 s10x_u7wos_08 X86

Спасибо,

Шейн

3 ответа

Решение

Обнаружено, что если я захожу в BIOS->CPU Settings и Disable C-Settings, серверы больше не рушатся. Они работают уже больше месяца, в то время как другие серверы, на которых не установлен флаг, все еще не работают.

Первые вещи, которые нужно проверить - у вас установлены последние версии патчей и обновлены прошивки для вашего оборудования? Какое программное обеспечение вы используете на хосте, и к нему были применены последние патчи? Хозяин имеет достаточную чистую мощность и охлаждение?

Проверяя HCL, похоже, что Dell R610 сертифицирован на OpenSolaris и Solaris 11 Express, но не упоминает Solaris 10.

НТН.

У меня такое точное поведение на Dell R410 под управлением Solaris 10 9/10 s10x_u9wos_14a.

Я нашел эту ветку, из-за которой я подумал, что мне следует использовать драйвер Broadcom вместо Solaris для моей установки. http://opensolaris.org/jive/thread.jspa?messageID=491917 http://forums.oracle.com/forums/thread.jspa?threadID=1924459&tstart=15

Я собираюсь попробовать установить его в эти выходные, но, как вы знаете, только время покажет, потому что нет абсолютно никаких следов этой проблемы, пока она не возникнет.

Вывод из fmdump -e fmdump: /var/fm/fmd/errlog пуст.

Другие вопросы по тегам