Невозможно связаться с контроллером грязи
Я следовал инструкциям по устранению неполадок здесь: https://slurm.schedmd.com/troubleshoot.html.
При запуске scontrol show slurmd я получаю:
Active Steps = NONE
Actual CPUs = 1
Actual Boards = 1
Actual sockets = 1
Actual cores = 1
Actual threads per core = 1
Actual real memory = 984 MB
Actual temp disk space = 492 MB
Boot time = 2019-03-27T17:53:56
Hostname = fedora2
Last slurmctld msg time = NONE
Slurmd PID = 1549
Slurmd Debug = 4
Slurmd Logfile = /var/log/slurmd.log
Version = 17.11.13-2
Я не знаю, почему slurmd на fedora2 не может связаться с контроллером на fedora1. Демон slurmctld работает нормально на fedora1.
Файл slurm.conf выглядит следующим образом:
# slurm.conf file generated by configurator easy.html.
# Put this file on all nodes of your cluster.
# See the slurm.conf man page for more information.
#
#SlurmctldHost=fedora1
#
ControlMachine=fedora1
ControlAddr=192.168.1.4
MailProg=/bin/mail
MpiDefault=none
#MpiParams=ports=#-#
ProctrackType=proctrack/cgroup
ReturnToService=1
SlurmctldPidFile=/var/run/slurm/slurmctld.pid
#SlurmctldPort=6817
SlurmdPidFile=/var/run/slurm/slurmd.pid
#SlurmdPort=6818
SlurmdSpoolDir=/var/spool/slurmd
SlurmUser=slurm
SlurmdUser=root
StateSaveLocation=/var/spool/slurmctld
SwitchType=switch/none
TaskPlugin=task/affinity
#
#
# TIMERS
#KillWait=30
#MinJobAge=300
#SlurmctldTimeout=120
#SlurmdTimeout=300
#
#
# SCHEDULING
FastSchedule=1
SchedulerType=sched/backfill
SelectType=select/cons_res
SelectTypeParameters=CR_Core
#
#
# LOGGING AND ACCOUNTING
AccountingStorageType=accounting_storage/none
ClusterName=fedora
#JobAcctGatherFrequency=30
JobAcctGatherType=jobacct_gather/none
SlurmctldDebug=verbose
SlurmctldLogFile=/var/log/slurmctld.log
SlurmdDebug=verbose
SlurmdLogFile=/var/log/slurmd.log
#
#
# COMPUTE NODES
NodeName=fedora1 NodeAddr=192.168.1.4 CPUs=1 State=UNKNOWN
NodeName=fedora2 NodeAddr=192.168.1.5 CPUs=1 State=UNKNOWN
PartitionName=debug Nodes=fedora[1-2] Default=YES MaxTime=INFINITE State=UP
Вывод файла tail /var/log/slurmd.log на fedora2 в несколько строк:
error: Unable to register: Unable to contact slurm controller (connect failure)
1 ответ
Недавно я столкнулся с подобным сообщением об ошибке (хотя у меня ошибка была написана на/var/log/messages
). Проблема для меня заключалась в том, что на вычислительные узлы устанавливалась не из локального репозитория, а из репозитория EPEL (думаю, это было новое дополнение, потому что раньше такого не было).
У меня на узле контроллера SLURM была версия 20.02.4, а у EPEL — 20.11.2. При переустановкеslurm
с помощьюyum
, я указал установку правильной версии (которая подобрала ее из моего локального репозитория), т.е.yum install slurmd-20.02.4
.
Один разslurmd
иslurmctld
была та же версия, все работало как положено.