Самопроизвольная перезагрузка, машинная проверка событий, AMD рызень

Я использую совершенно новую систему на arch linux около 3 недель, а вчера вечером она спонтанно перезагрузилась.

Во время перезагрузки нет никаких остановок / остановок в journalctl, так что я уверен, что это связано с аппаратным обеспечением, а не с пользовательской программой или acpi.

journalctl
Jul 01 06:21:15 euclid sshd[25731]: ...
-- Reboot --
Jul 01 06:24:46 euclid systemd-journald[305]: Time spent on flushing to /var is 547us for 0 entries.

Затем во время загрузки

Jul 01 06:24:46 euclid kernel: .... node  #0, CPUs:        #1  #2  #3
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: CPU 3: Machine Check: 0 Bank 5: bea0000000000108
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b4260 MISC d012000101000000 SYND 4d000000 IPID 500b000000000 
Jul 01 06:24:46 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1498915479 SOCKET 0 APIC 3 microcode 800111c
Jul 01 06:24:46 euclid kernel:   #4  #5  #6  #7  #8  #9 #10 #11 #12 #13 #14 #15

Когда я пытаюсь запустить mcelog, я получаю

0 % mcelog
mcelog: ERROR: AMD Processor family 23: mcelog does not support this processor.  Please use the edac_mce_amd module instead.
CPU is unsupported

Я подозреваю, что 1) я занизил блок питания для этой системы, или 2) где-то перегрелся.

Все калькуляторы блока питания, которые я запускал, давали мне рекомендацию 750 Вт, поэтому я выбрал блок питания 850 Вт. Тем не менее, сейчас я планирую перейти на блок питания 1000 Вт.

Мои вопросы: как мне интерпретировать это событие проверки машины? Я думаю, это специфично для моего процессора? Выдает ли AMD какую-либо информацию, которая позволила бы мне расшифровать эту ошибку? И как бы я узнал, перезагрузился ли я из-за перегрева? Я не могу найти журнал событий в BIOS (ASUS).

РЕДАКТИРОВАТЬ: больше деталей

Процессор: Ryzen 7 1700

Мобо: Asus Prime x370-Pro

Оперативная память: G.SKILL Trident Z (4x 8 ГБ) 3200 (F4-3200C16D-16GTZKW)

Блок питания: EVGA SuperNOVA 850 P2 80+ PLATINUM 850 Вт

GPU: GTX 1080-TI x2

Ручка 0x0000, тип DMI 0, 24 байта
Информация о BIOS
Поставщик: Американ Мегатрендс Инк.
Версия: 0604
Дата выхода: 04.06.2017

Нет разгона Заводские настройки BIOS.

Он работал стабильно в течение нескольких недель. Я добавил 3x HDD за пару дней до мероприятия.

РЕДАКТИРОВАТЬ: тот же сбой, кажется, снова произошло

Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: Machine check events logged
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: CPU 12: Machine Check: 0 Bank 5: bea0000000000108
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: TSC 0 ADDR 1ffff810b3ef6 MISC d012000101000000 SYND 4d000000 IPID 500b000000000 
Jul 06 22:46:37 euclid kernel: mce: [Hardware Error]: PROCESSOR 2:800f11 TIME 1499406389 SOCKET 0 APIC c microcode 800111c

1 ответ

Кажется, это аппаратная проблема процессора. На форумах сообщества AMD ( https://community.amd.com/thread/215773) было предложено отключить SMT или OpCache в качестве временного решения, пока это не будет исправлено.

Я отключил OpCache в BIOS и сообщения mce: [Hardware Error] во время загрузки исчезли. У меня есть две идентичные системы, которые имели ту же проблему с зависаниями / перезагрузками. До сих пор обе системы не зависали.

Другие вопросы по тегам