Мониторинг и отчетность по ошибкам страницы для определения проблем с памятью
Я нахожусь в процессе настройки монитора производительности для всех серверов в моем домене. Я использую WhatsUp Gold 16.2 для отправки оповещения, когда мы достигаем определенных порогов. Недавно я прочитал статью Microsoft, в которой допустимый порог был до 150 страниц в секунду. Проблема с WUG состоит в том, что самая маленькая единица, которую я могу измерить, - одна минута. Я думал о том, чтобы умножить 150*60 и отправить предупреждение на 9000 плюс, но это не похоже на хороший показатель нехватки памяти
Один из моих системных администраторов создал монитор для отправки оповещения, если у нас было более 4000 сбоев страниц за 30 минут. Я не думаю, что это лучше, чем мой предложенный монитор выше.
Пример монитора неисправностей на 4000 страниц:
Физический, а не VM Server 2003 R2 с пакетом обновления 2 (SP2) выполняет функции контроллера домена в удаленном офисе 32-разрядная 4 ГБ ОЗУ 4 ГБ файл подкачки 2 проц
График оперативной памяти за 30 дней: среднее значение: 18,5%; максимальное значение: 26,6%.
Виртуальная память 30-дневный график: средний: 5,38%; максимальный: 6,66%
Вышеуказанная система выдает предупреждение с ошибками более 4400 страниц за 30 минут. Из статистики видно, что нет никакого давления на память, о котором можно было бы говорить, и монитор ошибок на 4000 страниц не является хорошим индикатором проблемы.
Большая часть моей среды является виртуальной (VMWare & Hyper-V), в основном VMWare. Большинство всех серверов являются разновидностью Server 2008, очень мало 2003 и несколько 2012. У них очень мало физических.
Мой вопрос действительно сводится к:
Что я должен отслеживать и на каком пороге срабатывать оповещения с частотой дискретизации до одной минуты?