Пороговые значения AMD Tctl Margin не имеют смысла
У меня были проблемы с журналом событий BMC/IPMI, регистрирующим ошибки перегрева (в некоторых случаях критические) для процессоров. Я обеспокоен тем, что это в основном ложные срабатывания и что пороговые значения датчиков по умолчанию, установленные на BMC, неверны.
Аппаратное обеспечение: RS924A-E6/RS8 с 4-мя процессорами AMD 6376 - процессоры AMD предоставляют маржу контроля температуры (Tctl Margin) вместо необработанного показания температуры. Мое понимание Tctl Margin заключается в том, что это обратная шкала от 0..255
согласно которому 0
представляет максимальную рабочую температуру процессора (69 Celsius
в этом случае). По сути, чем ближе мы к 0
Чем горячее процессор физически - больше информации здесь.
Данные: две таблицы ниже предоставляют информацию о пороговых значениях и зарегистрированных событиях.
Пороги датчика:
ID | Name | Type | Reading | Units | Lower NR | Lower C | Lower NC | Upper NC | Upper C | Upper NR | Event
1 | CPU1 Tctl Margin | Temperature | 26.00 | unspecified | -10.00 | -5.00 | 0.00 | 127.00 | 127.00 | 127.00 | 'OK'
2 | CPU2 Tctl Margin | Temperature | 26.00 | unspecified | -10.00 | -5.00 | 0.00 | 127.00 | 127.00 | 127.00 | 'OK'
Журнал событий:
ID | Date | Time | Name | Type | Event
1 | Mar-28-2017 | 17:25:45 | CPU1 Tctl Margin | Temperature | Upper Non-recoverable - going low ; Sensor Reading = 31.00 unspecified ; Threshold = 127.00 unspecified
2 | Apr-09-2017 | 10:12:38 | CPU1 Tctl Margin | Temperature | Upper Non-recoverable - going low ; Sensor Reading = 24.00 unspecified ; Threshold = 127.00 unspecified
Как вы можете видеть в таблице выше, CPU1
как правило, имеет верхнюю невосстановимую ошибку температуры. Где я запутался, так это то, что эта ошибка возникает при чтении датчика 24
(или же 31
) но порог есть 127
, Это тот случай, когда BMC неправильно интерпретирует показания датчика, или что пороговые значения неверны? Что я могу сделать, чтобы это исправить?
1 ответ
Я полагаю, вы можете неправильно истолковать текст. "Понижение" указывает на то, что температура была выше 127, но теперь ниже ее. Что кажется правильным, учитывая пороги, которые вы перечислили выше.
Я предполагаю, что нет никаких "высоких событий" также. Возможно, материнская плата просто не сообщает об этих событиях, так как они должны быть "нормальными".