Устранение неисправностей страшного 0x9C BSOD
У нас Dell PowerEdge 2950 под управлением Windows Server 2003 R2, Enterprise x64 с установленным пакетом обновления 2.
В последнее время мы сталкивались с множеством ошибок STOP на этом сервере. К счастью, он используется как отказоустойчивый, поэтому в настоящее время он не влияет на нашу производственную среду. Ошибка, которая появляется в журнале сервера, такова:
Event Type: Error
Event Source: System Error
Event Category: (102)
Event ID: 1003
Description:
Error code 000000000000009c, parameter1 0000000000000004,
parameter2 fffffadf90881240, parameter3 00000000f2000000,
parameter4 0000000000060151.
Пока лучшее, что мне удалось отследить, это то, что ошибка 9C - это какая-то общая аппаратная проблема. Другие параметры бесполезны для сужения этого.
С момента ввода машины в эксплуатацию в прошлом году аппаратных изменений не произошло. У него есть идентичная двойная коробка (основной, для которой она действует как аварийное переключение), которая не испытывает поведение. Последнее изменение программного обеспечения было 16.04.2009, когда было применено несколько обновлений безопасности. Синие экраны начали появляться 5/9/2009.
Есть ли какая-нибудь диагностика, которая может помочь с этой проблемой?
3 ответа
См. Ответ Kazna3 по адресу http://www.d-a-l.com/archive/index.php/t-49205.html Он / она пишет:
Но сначала BSOD довольно старый. 0x9C BUGCHECK - это аппаратное обеспечение, хорошо известное. В остальном это касается процессора, это сбой процессора или просто драйвер процессора.:(
Посмотрите здесь для объяснения: 0x9C: MACHINE_CHECK_EXCEPTION ( http://msdn2.microsoft.com/en-us/library/ms795775.aspx)
Microsoft обычно советовала это, когда мы получили это с P4s:
Шаг 1) Обновите BIOS (исправления аппаратного обеспечения, называемые обновлениями микрокодов, используются здесь, если у вашего процессора или AMLI есть ошибки, это будет исправлено здесь).
Шаг 2) Немедленно позвоните поставщику оборудования, так как это строгая аппаратная ошибка.
Шаг 3) Замена оборудования, начиная с процессора.
Другими словами, ваше оборудование скорее всего повреждено. Возможно, провал или сильная жара. Тот факт, что компонент является твердотельным, не означает, что он не может выйти из строя. Например: RAM постоянно выходит из строя - есть причина, по которой он поставляется в антистатических пакетах.
См. Microsoft KB 939315 - это может вызвать драйвер storport..... вы видели ошибку при перезагрузке или завершении работы или просто во время работы?
У вас есть физический доступ к машине? Когда это происходит, на ЖК-дисплее состояния отображается код ошибки, или он кажется не обращающим внимания?
Если у вас установлен OpenManage, вы уже на ногах. Проверьте журналы OpenManage, чтобы увидеть, не было ли в нем каких-либо аппаратных ошибок. OpenManage также включает в себя довольно полнофункциональный диагностический пакет. Проверьте http://www.dell.com/downloads/global/power/ps1q06-20050259-Thathireddy.pdf для объяснения по его использованию. Служба поддержки Dell обычно проводит несколько диагностических тестов CLI, поэтому лучше связаться с ними.
В качестве общего шага (и для того, чтобы служба поддержки не просила вас сделать это), обновите микропрограмму BIOS и встроенного сервера управления BMC.
Замените ваш процессор, если у вас есть запасной.
Кроме того, это может звучать странно, но если у вас установлен DRAC, удалите его. У меня был 2850, который давал коды ошибок процессора (E07F0), зависал случайным образом и иногда не загружался. Замена DRAC исправила его, и с тех пор он без проблем.
Если ничего из этого не работает, пришло время позвонить в Dell. Это на 100% ниже уровня ОС.