Периодические сбои входа в систему или блокировки сбоев, когда под высокой нагрузкой олицетворения
Недавно мы наблюдали интересную серию сбоев в нашем кластере, где задания пользователей будут периодически прерываться с ошибками входа в систему, заблокированными учетными записями или ошибками доступа к файлам.
Наш кластер является слабосвязанным и грубым, построенным на 40 16-сторонних машинах Windows 2003. Они участвуют в корпоративном домене с контроллерами домена локально и в глобальной сети. Передача заданий обрабатывается сторонним приложением (ActiveBatch), а хранилище файлов распределяется между SAN, экспортируемым сервером Windows 2003, и более новым общим ресурсом CIFS в кластере Isilon.
Задания представляют собой ориентированные ациклические графы, состоящие из 1-5 000 процессов, запланированных на головном узле через ActiveBatch. Большинство заданий представляют собой крошечные командные файлы или сценарии Perl, которые выполняют настройку среды для вычислительных кодов, написанных на FORTRAN. Входные и выходные файлы для этих заданий хранятся либо в SAN, либо в Isilon.
То, что мы видели, - это периодические сбои в аутентификации, которые изначально мы считали изолированными на Isilon. Общий режим сбоя - 100-200 заданий, начинающих выполнение, каждое из которых ссылается на общие данные конфигурации в файле. Большинство будет успешным, однако, несколько заданий на нескольких машинах будут сбои на стороне клиента с ошибкой прав доступа к файлу (0x775 " Ссылочная учетная запись в настоящее время заблокирована..." или 0x52E "неизвестное имя пользователя или неверный пароль").
Проверка журналов событий за эти периоды сообщает 0 Ошибки аудита безопасности, но несколько успехов аудита безопасности для одного и того же пользователя! Единственная запись в журнале событий в непосредственной близости - это событие 6013, сообщающее нам: "Время безотказной работы системы составляет 2199088 секунд".
Недавно мы также видели ту же ошибку, когда программное обеспечение для планирования работ пытается создать задания на удаленных компьютерах. ActiveBatch отправит сведения о задании в службу, работающую на компьютере, которая затем попытается олицетворять пользователя при создании задания. Как и в случае с ошибками разрешения доступа к файлу, мы наблюдаем как блокировки учетной записи, так и неизвестного пользователя / пароль, когда учетная запись пользователя не заблокирована и не неизвестна (и на самом деле процессы на той же машине выполнялись вскоре после этих неудачных попыток).
Я недостаточно знаком с контроллерами домена, и у меня нет достаточного доступа, чтобы узнать, является ли это проблемой на стороне клиента или на стороне сервера. Отсутствие записей о сбоях в журнале событий на стороне клиента приводит меня к мысли, что причиной сбоя может быть тайм-аут DC или проблема с сетью. Однако опрос Wireshark о трафике между случайным сервером и DC не выявил каких-либо серьезных несоответствий, кроме случайных сообщений Kerberos Response Too Big.
Является ли это общей проблемой с настройками контроллера домена, когда высокая загрузка аутентификации / олицетворения вызывает временные сбои?
1 ответ
Это не распространено, если только нет чего-то, генерирующего ошибку, которая привела бы к блокировке.
Включение подробного ведения журнала Netlogon может помочь отследить его.
[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Netlogon\Parameters]
"DBFlag"=dword:24401F04
Созданные файлы:%systemroot%\debug\netlogon.log и netlogon.bak.
Они могут быстро переноситься в среде с большим объемом, поэтому вам может потребоваться увеличить размер файлов, который по умолчанию составляет 20 МБ. Чтобы увеличить его до 50 МБ:
[HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Netlogon\Parameters]
"MaximumLogFileSize"=dword:3200000
Включение ведения журнала отладки для службы Net Logon
http://support.microsoft.com/kb/109626