Server 2008 BSOD примерно раз в неделю

Я в затруднении, надеюсь, кто-то может помочь.

Вот что у меня есть: Dell R710 с одним процессором Xeon 2,7 ГГц, 18 ГБ Ram, Server 2008 x64 SP2 Я использую HyperV с примерно 5 серверами.

Начиная с января у меня были проблемы с падением.

Впервые это была одна из виртуальных машин (Server 2003 SBS). Сбой произошел без записей об ошибках в журнале событий и без аварийного сброса. Сервер вернулся самостоятельно.

Затем дважды сервер хоста (сервер 2008 года) рухнул на прошлой неделе, а затем сегодня, примерно через неделю. Опять же, нет записей в журнале событий, нет аварийного дампа, он снова включился сам по себе.

Я сделал изменения на сервере в начале января. Я обновил сетевые драйверы (Broadcom), добавил программное обеспечение Teaming и объединил два интерфейса. Я также обновил свой Symantec Endpoint Protection на всех серверах до последней версии 12. Я также заменил коммутатор, но не считал это частью проблемы.

Я думал, что это проблема с памятью, потому что одна из виртуальных машин потерпела крах, а также хост. Но это может быть и Symantec.

У меня нет всех аварийных DUMPS, потому что идиот, настроивший сервер, не оставил достаточно места на системном диске для копирования файлов DMP

Вот один из файлов DMP:

Microsoft (R) Windows Debugger Version 6.12.0002.633 AMD64
Copyright (c) Microsoft Corporation. All rights reserved.


Loading Dump File [C:\Windows\Minidump\Mini012412-01.dmp]
Mini Kernel Dump File: Only registers and stack trace are available

Symbol search path is: SRV*e:\symbols*http://msdl.microsoft.com/download/symbols
Executable search path is: 
Windows Server 2008/Windows Vista Kernel Version 6002 (Service Pack 2) MP (8 procs) Free x64
Product: Server, suite: TerminalServer SingleUserTS
Built by: 6002.18484.amd64fre.vistasp2_gdr.110617-0336
Machine Name:
Kernel base = 0xfffff800`01c1d000 PsLoadedModuleList = 0xfffff800`01de1dd0
Debug session time: Tue Jan 24 18:58:02.334 2012 (UTC - 5:00)
System Uptime: 9 days 13:32:35.727
Loading Kernel Symbols
...............................................................
................................................................
.............................
Loading User Symbols
Loading unloaded module list
..................................................
*******************************************************************************
*                                                                             *
*                        Bugcheck Analysis                                    *
*                                                                             *
*******************************************************************************

Use !analyze -v to get detailed debugging information.

BugCheck 7F, {8, 80050033, 6f8, fffff80001c70da4}

Probably caused by : NETIO.SYS ( NETIO!MatchValues+14e )

Followup: MachineOwner
---------

С тех пор я отключил Teaming

Вот еще один:

Windows Server 2008/Windows Vista Kernel Version 6002 (Service Pack 2) MP (8 procs) Free x64
Product: Server, suite: TerminalServer SingleUserTS
Built by: 6002.18484.amd64fre.vistasp2_gdr.110617-0336
Machine Name:
Kernel base = 0xfffff800`01c4b000 PsLoadedModuleList = 0xfffff800`01e0fdd0
Debug session time: Sat Jan 28 07:42:48.945 2012 (UTC - 5:00)
System Uptime: 0 days 21:36:52.143
Loading Kernel Symbols
...............................................................
................................................................
.............................
Loading User Symbols
Loading unloaded module list
...........
*******************************************************************************
*                                                                             *
*                        Bugcheck Analysis                                    *
*                                                                             *
*******************************************************************************

Use !analyze -v to get detailed debugging information.

BugCheck 7F, {8, 80050033, 6f8, fffff80001ceeaa2}

Probably caused by : ntkrnlmp.exe ( nt!KiDoubleFaultAbort+b8 )

Followup: MachineOwner
---------

3: kd> !analyze -v
*******************************************************************************
*                                                                             *
*                        Bugcheck Analysis                                    *
*                                                                             *
*******************************************************************************

UNEXPECTED_KERNEL_MODE_TRAP (7f)
This means a trap occurred in kernel mode, and it's a trap of a kind
that the kernel isn't allowed to have/catch (bound trap) or that
is always instant death (double fault).  The first number in the
bugcheck params is the number of the trap (8 = double fault, etc)
Consult an Intel x86 family manual to learn more about what these
traps are. Here is a *portion* of those codes:
If kv shows a taskGate
        use .tss on the part before the colon, then kv.
Else if kv shows a trapframe
        use .trap on that value
Else
        .trap on the appropriate frame will show where the trap was taken
        (on x86, this will be the ebp that goes with the procedure KiTrap)
Endif
kb will then show the corrected stack.
Arguments:
Arg1: 0000000000000008, EXCEPTION_DOUBLE_FAULT
Arg2: 0000000080050033
Arg3: 00000000000006f8
Arg4: fffff80001ceeaa2

Debugging Details:
------------------


USER_LCID_STR:  ENU

OS_SKU:  7

BUGCHECK_STR:  0x7f_8

CUSTOMER_CRASH_COUNT:  1

DEFAULT_BUCKET_ID:  DRIVER_FAULT_SERVER_MINIDUMP

PROCESS_NAME:  System

CURRENT_IRQL:  d

LAST_CONTROL_TRANSFER:  from fffff80001ca522e to fffff80001ca5490

STACK_TEXT:  
fffffa60`019e9a68 fffff800`01ca522e : 00000000`0000007f 00000000`00000008 00000000`80050033 00000000`000006f8 : nt!KeBugCheckEx
fffffa60`019e9a70 fffff800`01ca3a78 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiBugCheckDispatch+0x6e
fffffa60`019e9bb0 fffff800`01ceeaa2 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!KiDoubleFaultAbort+0xb8
fffffa60`005a8000 00000000`00000000 : 00000000`00000000 00000000`00000000 00000000`00000000 00000000`00000000 : nt!HvlEndSystemInterrupt+0x2


STACK_COMMAND:  kb

FOLLOWUP_IP: 
nt!KiDoubleFaultAbort+b8
fffff800`01ca3a78 90              nop

SYMBOL_STACK_INDEX:  2

SYMBOL_NAME:  nt!KiDoubleFaultAbort+b8

FOLLOWUP_NAME:  MachineOwner

MODULE_NAME: nt

IMAGE_NAME:  ntkrnlmp.exe

DEBUG_FLR_IMAGE_TIMESTAMP:  4dfb5a33

FAILURE_BUCKET_ID:  X64_0x7f_8_nt!KiDoubleFaultAbort+b8

BUCKET_ID:  X64_0x7f_8_nt!KiDoubleFaultAbort+b8

Followup: MachineOwner
---------

Надеюсь, я смогу получить очень необходимое руководство здесь.

Спасибо

3 ответа

Когда дело доходит до BSOD, 99% это проблема с драйверами.

Вы можете изменить конфигурацию, чтобы хранить только дамп ядра вместо полного оперативного памяти, так что вы можете сохранить больше.

Что бы я сделал:

  1. Обновите драйвер Broadcom. Я знаю, вы говорите, что сделали это, но проверьте еще раз, и от Broadcom, а не Dell. Всегда 6 месяцев позже.
  2. Проверьте настройки на карточке сетевого слова, такие как прием и отправка буфера. Возврат к заводским настройкам под вопросом
  3. Отключите временный Symantec для проверки. Также убедитесь, что ваш драйвер конечной точки обновлен. Я уже видел обновление Symantec, которое оставило более старую версию драйвера.

Вы пробовали следующее исправление? У нас было это с нашим набором R710, но мы не уверены, что он уже включен в обновление.

http://support.microsoft.com/kb/975530

Microsoft предлагает не объединять NICS вместе при использовании Hyper-V. Я рад, что ты выключил это. Я подумал, что это могло быть проблемой. Если вы чувствуете, что это проблема с памятью, попробуйте вынуть два неудобных модуля ОЗУ. 18Гб кажется выключенным. Вы должны иметь по крайней мере 16 ГБ. Я бы, наверное, начал там.

Другие вопросы по тегам