SBS 2011 Crash, неизвестная причина

У меня есть сервер SBS 2011, который начал выходить из строя несколько дней назад. Эта проблема возникла в воскресенье вечером в 11:55 вечера праздничных длинных выходных. В то время почти никто не обращался к серверу. Я не вносил никаких изменений в сервер в течение нескольких недель. Последние изменения были регулярными обновлениями от MS, которые не вызывали никаких проблем.

Когда он рухнул, и он застрял в последовательности загрузки, где он будет синий экран, пытаясь применить настройки компьютера. Когда синие экраны системы не выдают код ошибки, по крайней мере, я могу это сделать. Во время перезагрузки я подключаюсь с помощью Dell DRAC, так как сервер находится на объекте, к которому у меня нет физического доступа. Я вижу только самое начало сообщения об ошибке, но либо нет никакой дополнительной информации, либо оно отключено от моего сеанса консоли.

Я смог войти в безопасный режим и безопасный режим с сетью без проблем.

Я смог вернуться в Windows, обычно загружая ее один раз, но я думаю, что мне просто повезло, так как следующие 2 загружаются с синими экранами в настройках Applying Computer.

Я поставил галочку в MS, и мы работали над проблемой в течение 2 дней безуспешно. Я обращаюсь за помощью, надеясь, что у кого-то есть какие-либо идеи.

Я вернулся в Windows, как правило, используя Last Known Good Config, но после нескольких перезагрузок проблема вернулась. Ничего необычного в журналах событий системы или приложения перед сбоем системы не появляется, только информационные события.

Мы обнаружили странную проблему, из-за которой служба входа в сеть не запускалась (такого никогда раньше не было). MS определила, что каким-то образом имя компьютера было изменено в нескольких местах реестра. Мы отключили службы Exchange, так как они также отказывали из-за сбоя при запуске службы входа в сеть. После того, как мы изменили настройки реестра обратно на фактическое имя сервера, служба входа в сеть снова запустилась нормально.

Думая, что проблема была решена, мы начали перезапускать службы Exchange, а затем снова потерпели крах, когда примерно половина из них была запущена. Мы перезагрузились, а затем запустили еще пару, а затем снова потерпели крах.

Затем MS попыталась отключить сторонние драйверы и драйверы хранилища (те, которые не загружаются в безопасном режиме), но в этом состоянии сервер работал нестабильно. Мой инженер MS тогда ушел на ночь.

У меня был центр обработки данных, чтобы выполнить полную диагностику на оборудовании, которое вернулось чистым.

Я снова отключил все службы Exchange, и вот с тех пор он не рухнул.

Итак, есть идеи?

Я не могу понять, что это связано с оперативной памятью. Этот сервер очень мал; он работает 8 ГБ ОЗУ. Даже при отключенном Exchange 6,5 ГБ ОЗУ расходуется только при загрузке на рабочий стол. Сервер Dell PE2950 с 1 четырехъядерным процессором (2,33 ГГц) и 3-дисковым RAID 5 томом для сервера. Существует также автономный диск, который я использую для локального резервного копирования.

Я думал, что когда службы запускаются и ОЗУ отводится процессам, что он столкнулся с какой-то проблемой с физическим модулем, или что файл подкачки заполнен и каким-то образом вызывает сбой. Это правильное рассуждение?

Другая мысль состояла в том, что измененная запись реестра вызывала сбой службы входа в сеть. Имя сервера, которое появлялось в реестре, было общим, как WIN-67L5UNORI4I.

Я сканировал журналы безопасности на предмет неудачных попыток входа в систему и вижу похожие имена компьютеров, появляющиеся со странных IP-адресов (Китай, Южная Корея, Бразилия, Германия).

Может ли кто-то получить доступ и нанести какой-то ущерб, который приводит к его падению?

отключение автоматического перезапуска позволило мне увидеть экран ошибки BSOD. KERNEL_DATA_INPAGE_ERROR ... Техническая информация: STOP: 0x0000007A (0xFFFFF6FC4000A9D0, 0xFFFFFFFFC000000E, 0x0000000137CDF860, 0xFFFFF8800153A758 ... *** Ntfs.sys - Адрес FFFFF8800153A758 на базе FFFFF8800144C000, DATESTAMP 5167f5fc

Обратите внимание, что это, по-видимому, происходило более одного раза при попытке запустить службу rpcclientaccess. служба зависает при запуске, но создается процесс, который продолжает занимать все больше и больше оперативной памяти, а затем приводит к сбою сервера

Любой совет, который вы можете дать, был бы великолепен.

Спасибо!

2 ответа

Решение

Спасибо всем за участие.

Несмотря на то, что диагностика оборудования вернулась на круги своя, когда их запускал Центр обработки данных, это вводило в заблуждение.

Мы обновили прошивку на всех аппаратных устройствах. Как только сервер загрузился обратно в Windows, я заметил, что один из дисков массива RAID вышел из строя. Мы поменяли диск и все проблемы отключились.

Мне пришлось отремонтировать и перемонтировать обменную БД, но теперь она работает нормально.

Некоторая комбинация устаревшей прошивки и сбойного HD, кажется, здесь виновата.

Когда сервер запускался с автоматически установленными службами обмена, он пытался смонтировать БД, я полагаю, что получаю доступ к части сбойного HD и вызывает его сбой.

Синий экран / BSOD наиболее распространенные причины:

  • плохая память (запустите тестер памяти на несколько часов, чтобы провести стресс-тестирование всей памяти)
  • другое неисправное оборудование (материнская плата или?)
  • коррупция водителя // наименее вероятно

Используйте автозапуск и попробуйте отключить все драйверы и службы, которые вам не нужны.

Однако в такой ситуации, если этап очистки от автозапуска не приводит к успеху, наиболее частым решением является создание нового сервера. (новое оборудование, новая загрузка ОС...)

Другие вопросы по тегам