Информация о кодах ошибок SEL

Отказ от ответственности: у меня работает устаревший кластер, для которого у меня очень ограниченная информация - я десятый аспирант, который занимается повседневным обслуживанием, и я не эксперт по HPC, аппаратному обеспечению или программному обеспечению. Я использую этот кластер для запуска разработанного мною кода и устраняю проблемы только при необходимости. Документация ограничивается, главным образом, системой управления кластером, соответствующей требованиям конкретного кластера (Scyld), и у нас больше нет гарантии, поэтому вызов технической поддержки является последним средством, как нам было бы предъявлено обвинение (научное сообщество настоятельно рекомендует против этого).

Проблема: один из узлов этого кластера не загружается, выдавая следующую ошибку во время загрузки:

Node1: Dram ECC requested but not enabled
Node1: No DQS Receiver Enable pass window found
Node1: DQS Rcvr En pass window too small (far right of dynamic range)
DQS-DQ passing window too small
Press F1 to Resume

После нажатия клавиши F1 узел перезагружается и возвращается к этому. Это заставляет меня думать, что есть ошибка памяти (читай: аппаратная часть). Я открыл BIOS, и вся память показывается - но в журнале событий есть 5 элементов (размещены внизу). У меня такое ощущение, что эти коды могут привести меня к ошибке - особенно, если у меня есть мертвая палка DIMM или что-то еще хуже.

Попытки исправить: каждый узел в кластере содержит 2 четырехъядерных процессора AMD Opteron 2350, и каждый процессор имеет свои собственные 8 банков памяти. В настоящее время каждый банк имеет 4 стика DIMM, установленных в слотах 1-4. Я попытался переустановить модуль DIMM, изменить порядок модулей DIMM, поместить модуль DIMM в слоты 5–8 и переключить банки, в которых находится модуль DIMM, чтобы посмотреть, может ли это позволить мне изолировать какие-либо проблемы - безрезультатно.

Я нашел некоторую информацию о кодах ошибок SEL (здесь), и это выглядит несколько обнадеживающе - но коды не совсем такие, и поэтому я не могу им полностью доверять.

Требуемое решение: выясните, что означают эти SEL-коды, точно определите проблему, и (будем надеяться) исправьте ее и загрузите узел. Даже сужение до плохой карты памяти DIMM, плохого процессора или чего-либо еще может быть полезным.

Спасибо!

Другая информация, которая может или не может быть полезной: система представляет собой кластер Penguin с 32 узлами, каждый из которых идентичен (подробно описано выше). Это работает CentOS 4.6. Это кластер Беовульфа, используемый для высокопараллельного компьютерного моделирования с использованием MPI для сбора / разброса процессов по узлам.

Журнал системных событий:

SEL Entry Number            [1]
SEL Record ID:              0001
SEL Record Type:                02 (System Event)
Event Timestamp:                Sep 21, 2016 14:01:52
Generator ID:               0001
Event Message Format Ver:       04 (IPMI ver 1.5)
Event Sensor Type:          C1
Event Sensor Number:            81
Event Dir Type:             70
Event Data:                 A0 01 07

SEL Entry Number            [2]
SEL Record ID:              0002
SEL Record Type:                02 (System Event)
Event Timestamp:                Sep 21, 2016 14:02:03
Generator ID:               0001
Event Message Format Ver:       04 (IPMI ver 1.5)
Event Sensor Type:          0F (POST Error)
Event Sensor Number:            82
Event Dir Type:             70
Event Data:                 A0 08 41

SEL Entry Number            [3]
SEL Record ID:              0003
SEL Record Type:                02 (System Event)
Event Timestamp:                Sep 21, 2016 14:02:03
Generator ID:               0001
Event Message Format Ver:       04 (IPMI ver 1.5)
Event Sensor Type:          0F (POST Error)
Event Sensor Number:            82
Event Dir Type:             70
Event Data:                 A0 0B 41

SEL Entry Number            [4]
SEL Record ID:              0004
SEL Record Type:                02 (System Event)
Event Timestamp:                Sep 21, 2016 14:02:04
Generator ID:               0001
Event Message Format Ver:       04 (IPMI ver 1.5)
Event Sensor Type:          0F (POST Error)
Event Sensor Number:            82
Event Dir Type:             70
Event Data:                 A0 0D 41

SEL Entry Number            [5]
SEL Record ID:              0005
SEL Record Type:                02 (System Event)
Event Timestamp:                Sep 21, 2016 14:02:04
Generator ID:               0001
Event Message Format Ver:       04 (IPMI ver 1.5)
Event Sensor Type:          0F (POST Error)
Event Sensor Number:            82
Event Dir Type:             70
Event Data:                 A0 0F 41
memory event-log cluster

0 ответов

Другие вопросы по тегам