Пороговые значения AMD Tctl Margin не имеют смысла

У меня были проблемы с журналом событий BMC/IPMI, регистрирующим ошибки перегрева (в некоторых случаях критические) для процессоров. Я обеспокоен тем, что это в основном ложные срабатывания и что пороговые значения датчиков по умолчанию, установленные на BMC, неверны.

Аппаратное обеспечение: RS924A-E6/RS8 с 4-мя процессорами AMD 6376 - процессоры AMD предоставляют маржу контроля температуры (Tctl Margin) вместо необработанного показания температуры. Мое понимание Tctl Margin заключается в том, что это обратная шкала от 0..255 согласно которому 0 представляет максимальную рабочую температуру процессора (69 Celsius в этом случае). По сути, чем ближе мы к 0 Чем горячее процессор физически - больше информации здесь.

Данные: две таблицы ниже предоставляют информацию о пороговых значениях и зарегистрированных событиях.

Пороги датчика:

ID | Name             | Type         | Reading    | Units       | Lower NR   | Lower C    | Lower NC   | Upper NC   | Upper C    | Upper NR   | Event
1  | CPU1 Tctl Margin | Temperature  | 26.00      | unspecified | -10.00     | -5.00      | 0.00       | 127.00     | 127.00     | 127.00     | 'OK'
2  | CPU2 Tctl Margin | Temperature  | 26.00      | unspecified | -10.00     | -5.00      | 0.00       | 127.00     | 127.00     | 127.00     | 'OK'

Журнал событий:

ID | Date        | Time     | Name             | Type         | Event
1  | Mar-28-2017 | 17:25:45 | CPU1 Tctl Margin | Temperature  | Upper Non-recoverable - going low ; Sensor Reading = 31.00 unspecified ; Threshold = 127.00 unspecified
2  | Apr-09-2017 | 10:12:38 | CPU1 Tctl Margin | Temperature  | Upper Non-recoverable - going low ; Sensor Reading = 24.00 unspecified ; Threshold = 127.00 unspecified

Как вы можете видеть в таблице выше, CPU1 как правило, имеет верхнюю невосстановимую ошибку температуры. Где я запутался, так это то, что эта ошибка возникает при чтении датчика 24 (или же 31) но порог есть 127, Это тот случай, когда BMC неправильно интерпретирует показания датчика, или что пороговые значения неверны? Что я могу сделать, чтобы это исправить?

1 ответ

Решение

Я полагаю, вы можете неправильно истолковать текст. "Понижение" указывает на то, что температура была выше 127, но теперь ниже ее. Что кажется правильным, учитывая пороги, которые вы перечислили выше.

Я предполагаю, что нет никаких "высоких событий" также. Возможно, материнская плата просто не сообщает об этих событиях, так как они должны быть "нормальными".

Другие вопросы по тегам