Диагностика сбоя сервера, возможно температура процессора
У меня рабочий стол работает как сервер Ubuntu в другом офисе. В последнее время его время от времени отключали, и я немного не уверен, как это диагностировать. Системный журнал выглядит так:
May 20 15:42:35 hostname sensord: Chip: coretemp-isa-0000
May 20 15:42:35 hostname sensord: Adapter: ISA adapter
May 20 15:42:35 hostname sensord: Core 0: 67.0 C
May 20 15:42:35 hostname sensord: Core 1: 66.0 C
May 20 15:42:35 hostname sensord: Core 2: 61.0 C
May 20 15:42:35 hostname sensord: Core 3: 58.0 C
May 20 16:04:16 hostname kernel: [ 5243.049529] CPU0: Core temperature above threshold, cpu clock throttled (total events = 1)
May 20 16:04:16 hostname kernel: [ 5243.050011] CPU0: Core temperature/speed normal
May 20 16:05:48 hostname kernel: [ 5335.083540] CPU2: Core temperature above threshold, cpu clock throttled (total events = 1)
May 20 16:05:48 hostname kernel: [ 5335.084028] CPU2: Core temperature/speed normal
May 21 16:06:52 hostname kernel: [ 5399.816039] mce: [Hardware Error]: Machine check events logged
Сначала я подозревал, что сломан вентилятор или что-то тепловое, и активирован сенсор. Но температура кажется стабильной во времени.
Редактировать: я установил mcelog, и демон работает. Очень жду, когда это случится снова, чтобы понять, имеет ли mcelog какой-либо смысл.
Обновить
Mcelog указывает, что это тепловая проблема, у меня есть журналы, подобные приведенным ниже, которые соответствуют временам задания cron резервного копирования сервера Gitlab.
MCE 0
CPU 0 THERMAL EVENT TSC 16ec0aadec3a0
TIME 1401260314 Wed May 28 08:58:34 2014
Processor 0 heated above trip temperature. Throttling enabled.
Please check your system cooling. Performance will be impacted
STATUS 88020003 MCGSTATUS 0
MCGCAP 806 APICID 0 SOCKETID 0
CPUID Vendor Intel Family 6 Model 15
Hardware event. This is not a software error.
Сегодня я также провел некоторое тестирование, подчеркивая, что система stress -c 4 -i 1 -m 1 -t 120
и я очень быстро достигаю 100 C на темп.
coretemp-isa-0000
Adapter: ISA adapter
Core 0: +100.0°C (high = +84.0°C, crit = +100.0°C)
Core 1: +96.0°C (high = +84.0°C, crit = +100.0°C)
Core 2: +85.0°C (high = +84.0°C, crit = +100.0°C)
Core 3: +79.0°C (high = +84.0°C, crit = +100.0°C)
Я подозреваю, что радиатор установлен неправильно, и я проверю это, когда найду время.
Решение
Я быстро проверю тепловую пасту и раковину процессора.
Я взял подержанный Dell PowerEdge R200 для замены этого сервера, и я постараюсь настроить его на следующей неделе. Большое спасибо за совет.
2 ответа
Вы, вероятно, можете диагностировать это... Журналы указывают на тепловую проблему. Процессорная паста, радиатор, охлаждение и т. Д.
Но вот ответ Pro:
Какова стоимость замены? Является ли влияние неожиданного простоя достаточным для конечных / бизнес-пользователей, чтобы просто заменить установку на хорошо зарекомендовавшее себя оборудование серверного класса?
Требуется ли время простоя для правильной диагностики оборудования, которое может негативно повлиять на пользователей?
Если так, замените это...
Если нет, устраните неполадки... Попробуйте протестировать ОЗУ, как упоминалось ранее. Также посмотрите, можете ли вы вызвать плохое поведение с помощью утилиты для снятия стресса или с помощью диагностического Live CD.
Система сообщает вам, что регистрирует ошибки оборудования, вы смотрели на них?
21 мая 16:06:52 имя хоста ядро: [ 5399.816039] mce: [Аппаратная ошибка]: регистрируются события проверки компьютера
Справка: справочная страница по Ubuntu для mcelog.