Имеет ли смысл контролировать свободную память и использование процессора на серверах?

Я наблюдаю за инфраструктурой своих серверов, используя Icinga2 с некоторыми конфигурациями master / satellite.

На хостах Linux и Windows я наблюдаю системные показатели по умолчанию, такие как загрузка процессора и свободная системная память. На рабочих узлах эти значения часто могут достигать 100% (или 5% свободной оперативной памяти), и поэтому я получаю много критических аварийных сигналов, которые на самом деле не беспокоят.

Итак, было бы лучше:

  • просто избегайте мониторинга свободной памяти и использования процессора
  • установить критические сигналы тревоги на 0% для свободной памяти и 100% для использования процессора
  • продолжать следить за ними, но без получения каких-либо предупреждений
  • просто откажитесь от предупреждений
  • что-то еще?

1 ответ

Решение

Вам необходимо адаптировать пороги мониторинга к значениям, которые имеют смысл для конкретной среды.

Например, на вычислительном узле мы хотим, чтобы загрузка ЦП составляла 100%, так что это не годный порог для оповещений. Тем не менее, наличие средней нагрузки, которая постоянно превышает число ядер или большое время ожидания ввода-вывода, может указывать на проблемы, поэтому соблюдайте эти значения в этом случае и устанавливайте соответствующие предупреждения.

Это в сторону: если вы не используете значение в качестве порога предупреждения, вам не нужно отслеживать его, но вы можете сделать это в любом случае, чтобы сохранить статистику использования, если вам это нужно. Опять же: зависит от вашей среды.

О, и никогда не будет предупреждений, которые вы отказываетесь. Это приводит к усталости оповещения, и в какой-то момент вы можете проигнорировать важное оповещение, потому что оно заглушает весь этот шум. Если вы не будете действовать после предупреждения, удалите его.

Другие вопросы по тегам