Как я могу найти, какая память имеет ошибку CE?
В /var/log/kern.log
:
kernel: [13291329.657499] EDAC MC0: 48 CE error on CPU#0Channel#2_DIMM#0 (channel:2 slot:0 page:0x0 offset:0x0 grain:8 syndrome:0x0)
Это edac
журнал, один из памяти есть ce
ошибка.
Я читал эдак док
Dual channels allows for 128 bit data transfers to the CPU from memory.
Some newer chipsets allow for more than 2 channels, like Fully Buffered DIMMs
(FB-DIMMs). The following example will assume 2 channels:
Channel 0 Channel 1
===================================
csrow0 | DIMM_A0 | DIMM_B0 |
csrow1 | DIMM_A0 | DIMM_B0 |
===================================
===================================
csrow2 | DIMM_A1 | DIMM_B1 |
csrow3 | DIMM_A1 | DIMM_B1 |
===================================
и найдите канал ошибки:
$ grep "[0-9]" /sys/devices/system/edac/mc/mc*/csrow*/ch*_ce_count
/sys/devices/system/edac/mc/mc0/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc0/csrow0/ch2_ce_count:144648966
/sys/devices/system/edac/mc/mc0/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch1_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow0/ch2_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch0_ce_count:0
/sys/devices/system/edac/mc/mc1/csrow1/ch1_ce_count:0
и это должно быть mc0/csrow0/ch2
как документ, DIMM должен быть DIMM_C0
и может быть найден dmidecode
:
Но я не могу найти этот DIMM, поэтому я не знаю, с какой памятью возникли проблемы:
$ dmidecode -t memory | grep 'Locator: PROC'
Locator: PROC 1 DIMM 2A
Locator: PROC 1 DIMM 1D
Locator: PROC 1 DIMM 4B
Locator: PROC 1 DIMM 3E
Locator: PROC 1 DIMM 6C
Locator: PROC 1 DIMM 5F
Locator: PROC 2 DIMM 2A
Locator: PROC 2 DIMM 1D
Locator: PROC 2 DIMM 4B
Locator: PROC 2 DIMM 3E
Locator: PROC 2 DIMM 6C
Locator: PROC 2 DIMM 5F
Есть 12 слотов, и 9 слотов имеют память.
Итак, как я могу узнать, какая память имеет проблемы?
Дополнение:
System Information
Manufacturer: HP
Product Name: ProLiant DL180 G6
2 ответа
Ваша проблема DIMM скорее всего - Locator: PROC 1 DIMM 5F
CPU # 0Channel # 2_DIMM # 0 означает:
PROC 1,
1D,2A = Channel 0
3E,4B = Channel 1
5F,6C = Channel 2
5F = DIMM 0
6C = DIMM 1
Редактировать:
Задавая вопросы, больше информации всегда лучше... Наличие производителя и модели сервера упростило бы это:
Вот диаграмма памяти от HP ProLiant DL180 G6 Quickspecs:
Мое предположение, что модуль DIMM в слоте процессора № 1 правильный... Но это аппаратное обеспечение HP. Вам не нужно угадывать!
Вы должны использовать агенты управления HP, так как они могут оповещать и предоставлять подробные сведения о состоянии и состоянии оборудования для конкретной платформы...
[root@veloce ~]# hpasmcli
HP management CLI for Linux (v2.0)
Copyright 2008 Hewlett-Packard Development Group, L.P.
--------------------------------------------------------------------------
This server ProLiant DL180 G6 , is a Proliant 100 Series Server.
NOTE: Some hpasmcli commands may not be supported on 100 series servers.
Type 'help' to get a list of all top level commands.
--------------------------------------------------------------------------
hpasmcli> show dimm
Cartridge #: 0
Processor #: 1
Module #: 2
Present: Yes
Form Factor: fh
Memory Type: 5h
Size: 4096 MB
Speed: 1333 MHz
Status: N/A
Cartridge #: 0
Processor #: 1
Module #: 1
Present: Yes
Form Factor: fh
Memory Type: 5h
Size: 4096 MB
Speed: 1333 MHz
Status: N/A
Cartridge #: 0
Processor #: 1
Module #: 4
Present: Yes
Form Factor: fh
Memory Type: 5h
Size: 4096 MB
Speed: 1333 MHz
Status: N/A
Cartridge #: 0
Processor #: 1
Module #: 6
Present: Yes
Form Factor: fh
Memory Type: 5h
Size: 4096 MB
Speed: 1333 MHz
Status: N/A
Я хочу просто добавить, что компоновка материнской платы (от разных производителей) может отличаться, и невозможно надежно сопоставить слоты и значения csrow + канал + ранг без проверки каждой комбинации.
Например, материнская плата ASUS B450 с процессором AMD ryzen и двухранговыми картами памяти:
dmidecode: DIMM A1 (first slot from cpu side)
edac: csrow 0 channel 1 rank 1
edac: csrow 1 channel 1 rank 3
dmidecode: DIMM A2 (second slot from cpu side)
edac: csrow 2 channel 1 rank 5
edac: csrow 3 channel 1 rank 7
dmidecode: DIMM A1 + DIMM B1 (first and third slot from cpu side)
edac: csrow 0 channel 0 rank 0
edac: csrow 0 channel 1 rank 1
edac: csrow 1 channel 0 rank 2
edac: csrow 1 channel 1 rank 3
dmidecode: DIMM A2 + DIMM B2 (second and fourth slot from cpu side)
edac: csrow 2 channel 0 rank 4
edac: csrow 2 channel 1 rank 5
edac: csrow 3 channel 0 rank 6
edac: csrow 3 channel 1 rank 7
dmidecode: DIMM A1 + DIMM A2 + DIMM B1 + DIMM B2 (all)
edac: csrow 0 channel 0 rank 0
edac: csrow 0 channel 1 rank 1
edac: csrow 1 channel 0 rank 2
edac: csrow 1 channel 1 rank 3
edac: csrow 2 channel 0 rank 4
edac: csrow 2 channel 1 rank 5
edac: csrow 3 channel 0 rank 6
edac: csrow 3 channel 1 rank 7
Таким образом, мы можем предоставить следующее отображение:
csrow 0 channel 0 rank 0: DIMM B1
csrow 0 channel 1 rank 1: DIMM A1
csrow 1 channel 0 rank 2: DIMM B1
csrow 1 channel 1 rank 3: DIMM A1
csrow 2 channel 0 rank 4: DIMM B2
csrow 2 channel 1 rank 5: DIMM A2
csrow 3 channel 0 rank 6: DIMM B2
csrow 3 channel 1 rank 7: DIMM A2
Если вы используете серверы HP со специальными инструментами командной строки, это может помочь вам определить сопоставление памяти. В противном случае вам придется проверять каждую комбинацию.