Windows Server 2008 R2 отключился без видимой причины

Наш новый сервер работает в основном нормально в течение нескольких месяцев. Дважды, однако, он отключился без видимой причины.

Самое последнее происшествие было в 11:41 вечера несколько дней назад. Журналы событий ничего не показывают, и последняя запись является довольно обыденной записью аудита в журнале безопасности. В журнале ИБП отсутствуют проблемы с питанием. Ничего особенного не работало, как это было после нескольких часов. За исключением, конечно, ночной резервной копии, которая начинается в 10 вечера. Журнал резервного копирования также не показывает ничего интересного и просто останавливается в середине резервного копирования. Хотя сервер настроен на запись дампа и перезапуска ядра, дамп памяти отсутствует, и система не перезагружалась. Это сервер HP Proliant ML330 G6 Series.

Когда сервер был перезапущен вручную на следующее утро, были зарегистрированы следующие события:

Log Name:      System
Source:        EventLog
Date:          4/16/2011 8:20:22 AM
Event ID:      6008
Task Category: None
Level:         Error
Keywords:      Classic
User:          N/A
Computer:      XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The previous system shutdown at 11:41:26 PM on ‎4/‎15/‎2011 was unexpected.

а также

Log Name:      System
Source:        Microsoft-Windows-Kernel-Power
Date:          4/16/2011 8:20:00 AM
Event ID:      41
Task Category: (63)
Level:         Critical
Keywords:      (2)
User:          SYSTEM
Computer:      XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The system has rebooted without cleanly shutting down first. This error could be
caused if the system stopped responding, crashed, or lost power unexpectedly.

а также

Log Name:      System
Source:        USER32
Date:          4/16/2011 8:22:34 AM
Event ID:      1076
Task Category: None
Level:         Warning
Keywords:      Classic
User:          XXXXXXXXXXXXXXX\Administrator
Computer:      XXXXXXXX.xxxxxxxxxxxxxxxx.local
Description:
The reason supplied by user XXXXXXXXXXXXXXX\Administrator for the last unexpected 
shutdown of this computer is: Other Failure: System Unresponsive
Reason Code: 0x8000005
Problem ID: 
Bugcheck String: 
Comment: 

Я потратил некоторое время на изучение этого и нашел очень мало пользы. У кого-нибудь есть идеи?

ОБНОВЛЕНИЕ: Вот соответствующие части журнала iLO2:

305 04/15/2011 23:42:00 Server reset. 
306 04/15/2011 23:42:00 Server power removed. 
307 04/15/2011 23:42:00 iLO 2 network link down. 
308 04/15/2011 23:42:00 iLO 2 network link up at 100 Mbps. 
309 04/16/2011 08:17:00 Server power restored. 

ОБНОВЛЕНИЕ: я увеличил размер файла подкачки, чтобы учесть полные дампы ядра, поэтому, если это действительно сбой Windows, я смогу увидеть, что произошло - в следующий раз, когда это произойдет.

ОБНОВЛЕНИЕ: микропрограмма сервера уже была обновлена.

ОБНОВЛЕНИЕ: было много обновлений для драйверов и системного программного обеспечения. Я установил большинство из них, и теперь я просто жду, чтобы увидеть, не возникнет ли проблема снова.

ОБНОВЛЕНИЕ 2018 Июнь06: после шести лет безотказной работы эта проблема вернулась, дважды встречаясь за последнюю неделю или около того. Я смотрю на вероятность того, что передняя панель и ее проводка неисправны.

ОБНОВЛЕНИЕ 2018Nov30: Наконец-то поменялся местами кабельный узел передней панели, но проблема все еще возникает. Далее идет блок питания.

6 ответов

Скорее всего, это неисправный комплект выключателя питания / светодиодного кабеля. Мой ML310 G5 делал то же самое, и это решило проблему. По-видимому, это известная проблема с HP.

459186-001-02 HEWLETT-PACKARD PROLIANT ML310 G5 СИСТЕМА ПЕРЕДНЕГО СВЕТА К SYS/BRD CABLE P/N: 459186-001-02 - HEWLETT-PACKARD ORIGINALS

Я собираюсь пойти ваааааааа на конечность и сказать, что вам может потребоваться обновление прошивки. Источник Некоторое время назад у нас было нечто похожее с нашим DL380 G6.

У меня была эта ТОЧНАЯ проблема, возникающая на моем сервере Server 2008 R2. Оказывается, что у CPE серии Xeon 5000, которую использует ваша машина, есть проблема с ролью 2008 R2 и Hyper-V. Я собираюсь остановиться здесь и предположить, что у вас установлена ​​роль Hyper-V, исходя из того, что проблема идентична той, что была у меня.

Исправление от Microsoft доступно ЗДЕСЬ. Я установил его в своей системе, и с тех пор он стал беспроблемным.

Машина перегревается? Проверьте вентиляторы и вентиляционные отверстия на наличие пыли.

У вас установлено программное обеспечение агента управления HP? Вы упоминаете журналы событий Windows и журналы резервного копирования, но не "аппаратные" журналы. Вам тоже нужно посмотреть, потому что самопроизвольные выключения могут быть связаны с аппаратной проблемой, которую вы не сможете увидеть нигде.

Если бы это действительно был сбой системы, вы бы обнаружили такое событие в системном журнале:

Level: Error
Source: Bugcheck
Event ID: 1001
Text: The computer has rebooted from a bugcheck.  The bugcheck was: [...]

Кроме того, будучи настроенным на сохранение дампа ядра и перезагрузку, сервер сделал бы именно это.

Отсутствие такого журнала событий и последующей перезагрузки означает, что отключение было вызвано внешним событием (отсутствие питания, аппаратная ошибка...). Кроме того, ваши журналы ILO, кажется, подтверждают, что сбой питания был действительной причиной.

Другие вопросы по тегам