Многочисленные ошибки pbs_server в /var/log/messages

На узле управления суперкомпьютера мы получаем множество ошибок, таких как:

pbs_server: LOG_ERROR::is_request, bad attempt to connect from 10.10.0.254:1023 (address not trusted - check entry in server_priv/nodes)

И после них почти каждая минута следует за этим:

last message repeated 16 times

где количество повторений меняется время от времени.

Упомянутый адрес 10.10.0.254 является одним из адресов узла управления. Порт 1023 в соответствии с "netstat -pa | grep 1023" относится к pbs_mom.

Оказывается, узел управления несколько раз в минуту пытается соединиться с самим собой и не может этого сделать. Советы из текста ошибки не очень помогают, насколько я понимаю, узел управления не должен находиться в файле "узлов".

Кто-нибудь может подсказать, как решить эту проблему?

2 ответа

Ваш узел управления не определен как узел в pbs. Откройте qmgr и запустите "создать узел [имя хоста без скобок]". Другой вариант - убить pbs_mom, так как вы, вероятно, не хотите запускать вычислительные задания на вашем головном узле.

Я столкнулся с этой проблемой, и причина в том, что у меня есть несколько сетевых интерфейсов (GE, IB) на вычислительных узлах, которые доступны для административного узла.

Административный узел в затронутом вычислительном узле определен в отдельной подсети, как предполагается, с другой сетевой картой.

Другие вопросы по тегам