Информация о кодах ошибок SEL
Отказ от ответственности: у меня работает устаревший кластер, для которого у меня очень ограниченная информация - я десятый аспирант, который занимается повседневным обслуживанием, и я не эксперт по HPC, аппаратному обеспечению или программному обеспечению. Я использую этот кластер для запуска разработанного мною кода и устраняю проблемы только при необходимости. Документация ограничивается, главным образом, системой управления кластером, соответствующей требованиям конкретного кластера (Scyld), и у нас больше нет гарантии, поэтому вызов технической поддержки является последним средством, как нам было бы предъявлено обвинение (научное сообщество настоятельно рекомендует против этого).
Проблема: один из узлов этого кластера не загружается, выдавая следующую ошибку во время загрузки:
Node1: Dram ECC requested but not enabled
Node1: No DQS Receiver Enable pass window found
Node1: DQS Rcvr En pass window too small (far right of dynamic range)
DQS-DQ passing window too small
Press F1 to Resume
После нажатия клавиши F1 узел перезагружается и возвращается к этому. Это заставляет меня думать, что есть ошибка памяти (читай: аппаратная часть). Я открыл BIOS, и вся память показывается - но в журнале событий есть 5 элементов (размещены внизу). У меня такое ощущение, что эти коды могут привести меня к ошибке - особенно, если у меня есть мертвая палка DIMM или что-то еще хуже.
Попытки исправить: каждый узел в кластере содержит 2 четырехъядерных процессора AMD Opteron 2350, и каждый процессор имеет свои собственные 8 банков памяти. В настоящее время каждый банк имеет 4 стика DIMM, установленных в слотах 1-4. Я попытался переустановить модуль DIMM, изменить порядок модулей DIMM, поместить модуль DIMM в слоты 5–8 и переключить банки, в которых находится модуль DIMM, чтобы посмотреть, может ли это позволить мне изолировать какие-либо проблемы - безрезультатно.
Я нашел некоторую информацию о кодах ошибок SEL (здесь), и это выглядит несколько обнадеживающе - но коды не совсем такие, и поэтому я не могу им полностью доверять.
Требуемое решение: выясните, что означают эти SEL-коды, точно определите проблему, и (будем надеяться) исправьте ее и загрузите узел. Даже сужение до плохой карты памяти DIMM, плохого процессора или чего-либо еще может быть полезным.
Спасибо!
Другая информация, которая может или не может быть полезной: система представляет собой кластер Penguin с 32 узлами, каждый из которых идентичен (подробно описано выше). Это работает CentOS 4.6. Это кластер Беовульфа, используемый для высокопараллельного компьютерного моделирования с использованием MPI для сбора / разброса процессов по узлам.
Журнал системных событий:
SEL Entry Number [1]
SEL Record ID: 0001
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:01:52
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: C1
Event Sensor Number: 81
Event Dir Type: 70
Event Data: A0 01 07
SEL Entry Number [2]
SEL Record ID: 0002
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:02:03
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: 0F (POST Error)
Event Sensor Number: 82
Event Dir Type: 70
Event Data: A0 08 41
SEL Entry Number [3]
SEL Record ID: 0003
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:02:03
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: 0F (POST Error)
Event Sensor Number: 82
Event Dir Type: 70
Event Data: A0 0B 41
SEL Entry Number [4]
SEL Record ID: 0004
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:02:04
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: 0F (POST Error)
Event Sensor Number: 82
Event Dir Type: 70
Event Data: A0 0D 41
SEL Entry Number [5]
SEL Record ID: 0005
SEL Record Type: 02 (System Event)
Event Timestamp: Sep 21, 2016 14:02:04
Generator ID: 0001
Event Message Format Ver: 04 (IPMI ver 1.5)
Event Sensor Type: 0F (POST Error)
Event Sensor Number: 82
Event Dir Type: 70
Event Data: A0 0F 41
memory event-log cluster