Случайные серверы в ферме Citrix неожиданно становятся голубыми экранами (в основном 0x0000008e и 0x0000007e)

Я отвечаю за ферму Citrix Presentation Server 4.5. Начиная с пятницы, 30 ноября, мои серверы начали зависать случайно. Пока что у нас было 80 сбоев, так что, очевидно, это становится все более серьезной проблемой для нас. У меня 12+ лет опыта работы с ИТ, поэтому я знаю разницу между 0 и 1, но мне трудно это взломать.

Мы откатили все недавние изменения, которые я могу придумать для разных групп серверов, но все группы, похоже, дают сбой. У меня нет навыков, чтобы интерпретировать дампы памяти, чтобы найти виновника.

  • Кто-нибудь сталкивался с такой же или похожей проблемой? - может быть общая проблема Windows
  • Кроме выполнения "analysis -v" в WinDbg, как мне пройти через дампы памяти, чтобы увидеть, что на самом деле вызвало BSOD?
  • Любые предлагаемые шаги в достижении сути?

Любая помощь очень ценится. Я также могу предоставить ссылки на дампы памяти ядра или вывод WinDbg при необходимости.

Спасибо!

Описание проблемы

Большинство ошибок STOP, с которыми мы сталкиваемся:

  • 0x0000008e KERNEL_MODE_EXCEPTION_NOT_HANDLED (50%)
  • 0x0000007e SYSTEM_THREAD_EXCEPTION_NOT_HANDLED (26%)
  • 0x00000050 PAGE_FAULT_IN_NONPAGED_AREA (21%)

Мы также видим несколько 0x0000000a IRQL_NOT_LESS_OR_EQUAL (3%).

Для проверок ошибок 0x0000008e и 0x0000007e код исключения - 0xc0000005 (нарушение прав доступа). При открытии файлов дампа в WinDbg большинство деталей в точности совпадают для всех проверок ошибок 0x0000008e и 0x0000007e соответственно:

0x0000008E

  • Исключительный адрес: 0x808bc9e3
  • Рамка ловушки: [меняется]
  • FAILURE_BUCKET_ID: 0x8E_nt! HvpGetCellMapped + 97
  • Вероятно, вызвано (IMAGE_NAME): ntkrpamp.exe

0x0000007e

  • Исключительный адрес: 0x808369b6
  • Адрес исключительной записи: 0xf70d3be0
  • Адрес контекстной записи: 0xf70d38dc
  • FAILURE_BUCKET_ID: 0x7E_nt! MmPurgeSection + 14
  • Вероятно, вызвано: memory_corruption

Около 30% сбоев происходит между 17:00 и 19:00, что наводит меня на мысль, что это происходит чаще при выходе из системы. Но опять же, только ~15% происходит между 15:00 и 17:00.

Резюме фермы

  • Citrix Presentation Server 4.5 R06 в Windows Server 2003 R2 с пакетом обновления 2 (SP2)
  • Все патчи с высоким приоритетом, по крайней мере на октябрь
  • Виртуализация с использованием VMWare ESX/vSphere 4.1 на блейд-серверах HP Proliant BL460c G6
  • Около 53 серверов презентаций в производстве, разделенных на три хранилища - затронут только один из них, самый большой
  • 2 виртуальных ЦП (зарезервировано 5 ГГц), 8 ГБ ОЗУ (все зарезервировано) для каждого сервера презентаций
  • Много свободного дискового пространства
  • Очень мало драйверов для принтеров - автоматическое удаление неподтвержденных драйверов каждую ночь
  • ~1.000 пиковых одновременных пользователей, что достигается около 10:30 (в будние дни)
  • Количество сеансов неуклонно снижается с 15:00 до 19:00 до ~230

2 ответа

Решение

Мы закончили тем, что применили пакет обновления 4.5 для PS 4.5 (который не был установлен, потому что ранее он нарушал надежность сеанса для нас) и ряд исправлений после R07.

Кроме того, мы заменили новейшую бета-версию UPHClean 2.0, которую Microsoft с тех пор отказалась как отдельный компонент (все еще встроенный в более поздние версии Windows), на более новую версию UPHClean 1.6g.

С тех пор ферма была стабильной, но до сих пор остается загадкой, почему весь ад внезапно обанкротился, не внося каких-либо серьезных изменений.

У нас была похожая проблема со старой версией citrix (PS4), которая была связана с драйверами HP Print. Мне пришлось очистить всю партию, прежде чем переустанавливать соответствующие, и это, казалось, очистило проблему с синим экраном. Также любопытно "автоматическое удаление не одобренных водителей каждую ночь". Если вы убираете неподтвержденные каждую ночь, почему вы разрешаете их устанавливать в первую очередь? Вы можете остановить их установку в политиках Citrix. Подумайте, что это в разделе "Печать" -> "Драйверы" -> "Автоматическая установка собственного драйвера принтера" (установлено не устанавливать автоматически)

Другие вопросы по тегам