Многочисленные ошибки pbs_server в /var/log/messages
На узле управления суперкомпьютера мы получаем множество ошибок, таких как:
pbs_server: LOG_ERROR::is_request, bad attempt to connect from 10.10.0.254:1023 (address not trusted - check entry in server_priv/nodes)
И после них почти каждая минута следует за этим:
last message repeated 16 times
где количество повторений меняется время от времени.
Упомянутый адрес 10.10.0.254 является одним из адресов узла управления. Порт 1023 в соответствии с "netstat -pa | grep 1023" относится к pbs_mom.
Оказывается, узел управления несколько раз в минуту пытается соединиться с самим собой и не может этого сделать. Советы из текста ошибки не очень помогают, насколько я понимаю, узел управления не должен находиться в файле "узлов".
Кто-нибудь может подсказать, как решить эту проблему?
2 ответа
Ваш узел управления не определен как узел в pbs. Откройте qmgr и запустите "создать узел [имя хоста без скобок]". Другой вариант - убить pbs_mom, так как вы, вероятно, не хотите запускать вычислительные задания на вашем головном узле.
Я столкнулся с этой проблемой, и причина в том, что у меня есть несколько сетевых интерфейсов (GE, IB) на вычислительных узлах, которые доступны для административного узла.
Административный узел в затронутом вычислительном узле определен в отдельной подсети, как предполагается, с другой сетевой картой.