Прометей, Alertmanager Alert не срабатывает

Question

Прометей, Alertmanager Alert не срабатывает

У меня есть сервер Prometheus в качестве PoC. Я настроил некоторые правила в нем, чтобы проверить AlertManager. Чтобы проверить его оповещение, у меня есть экземпляр AWS, в который я загружаю процессор. И загрузка процессора составляет 100% в течение 24 часов. Я также установил стресс для проверки тревоги для использования ОЗУ и жесткого диска. Тем не менее, я не получаю никаких предупреждений...

amtool alert

показывает только "InstanceDown" и ничего больше:

InstanceDown  2018-10-15 16:44:14 UTC  Instance AMI Base down

Мои правила:

groups:
- name: basic alert rules
  rules:
  - alert: InstanceDown
    annotations:
      description: '{{ $labels.instance }} of job {{ $labels.job }} has been down for
        more than 5 minutes.'
      summary: Instance {{ $labels.instance }} down
    expr: up == 0
    for: 5m
    labels:
      severity: critical
  - alert: CriticalCPULoad
    annotations:
      description: '{{ $labels.instance }} of job {{ $labels.job }} has Critical CPU
        load for more than 2 minutes.'
      summary: Instance {{ $labels.instance }} - Critical CPU load
    expr: (100 * (1 - avg(irate(node_cpu{job="node",mode="idle"}[5m])) BY (instance)))
      > 75
    for: 2m
    labels:
      severity: critical
  - alert: CriticalRAMUsage
    annotations:
      description: '{{ $labels.instance }} has Critical Memory Usage more than 5 minutes.'
      summary: Instance {{ $labels.instance }} has Critical Memory Usage
    expr: (1 - ((node_memory_MemFree + node_memory_Buffers + node_memory_Cached) / node_memory_MemTotal))
      * 100 > 60
    for: 5m
    labels:
      severity: critical
  - alert: CriticalDiskSpace
    annotations:
      description: '{{ $labels.instance }} of job {{ $labels.job }} has less than 10%
        space remaining.'
      summary: Instance {{ $labels.instance }} - Critical disk space usage
    expr: node_filesystem_free{job="node",filesystem!~"^/run(/|$)"} / node_filesystem_size{job="node"}
      < 0.1
    for: 4m
    labels:
      severity: critical

Итак, что я скучаю?

0

prometheus alertmanager

Источник

Peter 16 окт '18 в 12:34

0 ответов

Другие вопросы по тегам prometheus alertmanager