Имеет ли смысл контролировать свободную память и использование процессора на серверах?
Я наблюдаю за инфраструктурой своих серверов, используя Icinga2 с некоторыми конфигурациями master / satellite.
На хостах Linux и Windows я наблюдаю системные показатели по умолчанию, такие как загрузка процессора и свободная системная память. На рабочих узлах эти значения часто могут достигать 100% (или 5% свободной оперативной памяти), и поэтому я получаю много критических аварийных сигналов, которые на самом деле не беспокоят.
Итак, было бы лучше:
- просто избегайте мониторинга свободной памяти и использования процессора
- установить критические сигналы тревоги на 0% для свободной памяти и 100% для использования процессора
- продолжать следить за ними, но без получения каких-либо предупреждений
- просто откажитесь от предупреждений
- что-то еще?
1 ответ
Вам необходимо адаптировать пороги мониторинга к значениям, которые имеют смысл для конкретной среды.
Например, на вычислительном узле мы хотим, чтобы загрузка ЦП составляла 100%, так что это не годный порог для оповещений. Тем не менее, наличие средней нагрузки, которая постоянно превышает число ядер или большое время ожидания ввода-вывода, может указывать на проблемы, поэтому соблюдайте эти значения в этом случае и устанавливайте соответствующие предупреждения.
Это в сторону: если вы не используете значение в качестве порога предупреждения, вам не нужно отслеживать его, но вы можете сделать это в любом случае, чтобы сохранить статистику использования, если вам это нужно. Опять же: зависит от вашей среды.
О, и никогда не будет предупреждений, которые вы отказываетесь. Это приводит к усталости оповещения, и в какой-то момент вы можете проигнорировать важное оповещение, потому что оно заглушает весь этот шум. Если вы не будете действовать после предупреждения, удалите его.