Прометей, Alertmanager Alert не срабатывает
У меня есть сервер Prometheus в качестве PoC. Я настроил некоторые правила в нем, чтобы проверить AlertManager. Чтобы проверить его оповещение, у меня есть экземпляр AWS, в который я загружаю процессор. И загрузка процессора составляет 100% в течение 24 часов. Я также установил стресс для проверки тревоги для использования ОЗУ и жесткого диска. Тем не менее, я не получаю никаких предупреждений...
amtool alert
показывает только "InstanceDown" и ничего больше:
InstanceDown 2018-10-15 16:44:14 UTC Instance AMI Base down
Мои правила:
groups:
- name: basic alert rules
rules:
- alert: InstanceDown
annotations:
description: '{{ $labels.instance }} of job {{ $labels.job }} has been down for
more than 5 minutes.'
summary: Instance {{ $labels.instance }} down
expr: up == 0
for: 5m
labels:
severity: critical
- alert: CriticalCPULoad
annotations:
description: '{{ $labels.instance }} of job {{ $labels.job }} has Critical CPU
load for more than 2 minutes.'
summary: Instance {{ $labels.instance }} - Critical CPU load
expr: (100 * (1 - avg(irate(node_cpu{job="node",mode="idle"}[5m])) BY (instance)))
> 75
for: 2m
labels:
severity: critical
- alert: CriticalRAMUsage
annotations:
description: '{{ $labels.instance }} has Critical Memory Usage more than 5 minutes.'
summary: Instance {{ $labels.instance }} has Critical Memory Usage
expr: (1 - ((node_memory_MemFree + node_memory_Buffers + node_memory_Cached) / node_memory_MemTotal))
* 100 > 60
for: 5m
labels:
severity: critical
- alert: CriticalDiskSpace
annotations:
description: '{{ $labels.instance }} of job {{ $labels.job }} has less than 10%
space remaining.'
summary: Instance {{ $labels.instance }} - Critical disk space usage
expr: node_filesystem_free{job="node",filesystem!~"^/run(/|$)"} / node_filesystem_size{job="node"}
< 0.1
for: 4m
labels:
severity: critical
Итак, что я скучаю?