Крутящий момент сообщает об ошибке при публикации задания на клиентские узлы

Система имеет две машины: одна (называемая macondo02) запускает pbs_server и pbs_schedule, другая (называемая macondo01) запускает pbs_mom. Я заверил, что хозяин может четко определить существование гостя:

$ pbsnodes -a
macondo01
state = free
np = 64
ntype = cluster
status = rectime=1403183300,varattr=,jobs=,state=free,netload=1102560564743,gres=,loadave=0.00,ncpus=64,physmem=131988228kb,availmem=263457400kb,totmem=266160896kb,idletime=705,nusers=6,nsessions=17,sessions=2817 59201 59937 18341 21924 27356 30089 31663 32133 32934 34374 7341 42678 58843 59605 59606 59741,uname=Linux macondo01 3.2.0-38-generic #61-Ubuntu SMP Tue Feb 19 12:18:21 UTC 2013 x86_64,opsys=linux

Однако всякий раз, когда я отправляю задание через qsub, задание не запускается, и в журнале PBS_server появляется сообщение об ошибке.

06/19/2014 23:00:19;0040;PBS_Server;Svr;macondo02.edu.au;Scheduler was sent the command new
06/19/2014 23:00:19;0008;PBS_Server;Job;54.macondo02.edu.au;Job Modified at request of Scheduler@macondo02.uq.edu.au
06/19/2014 23:00:19;0008;PBS_Server;Job;54.macondo02.edu.au;Job Run at request of Scheduler@macondo02.uq.edu.au
06/19/2014 23:00:19;0040;PBS_Server;Svr;macondo02.edu.au;Scheduler was sent the command recyc
06/19/2014 23:00:20;0010;PBS_Server;Job;54.macondo02.uq.edu.au;Exit_status=0 resources_used.cput=00:00:00 resources_used.mem=7680kb resources_used.vmem=23876kb resources_used.walltime=00:00:01
06/19/2014 23:00:24;000d;PBS_Server;Job;54.macondo02.uq.edu.au;Post job file processing error; job 54.macondo02.uq.edu.au on host macondo01/0
06/19/2014 23:00:24;0100;PBS_Server;Job;54.macondo02.uq.edu.au;dequeuing from batch, state COMPLETE
06/19/2014 23:00:24;0040;PBS_Server;Svr;macondo02.uq.edu.au;Scheduler was sent the command term

Видимо, сбой происходит из-за публикации задания от хоста (например, macondo02) к гостю (например, macondo01).

У меня есть несколько общих идей: 1. Я знаю, что необходимо установить плавное соединение между хостом и гостем, используя NFS. Я сделал это для своего СОБСТВЕННОГО НОРМАЛЬНОГО пользователя и использую этого пользователя для отправки задания qsub. пока ошибка все еще происходит. 2. в файле ошибок я увидел другого пользователя по имени Scheduler@macondo02.uq.edu.au, однако я не могу ни найти никакой информации об этом usr в каталоге cat / etc / groups, ни дать бесшовное право посетить macondo01.

Мы ценим любые предложения!

1 ответ

Попробуйте проверить /var/log/syslog или файлы журнала PBS на компьютере, где выполнялось задание, на котором был хост macondo01,

Вы ищете что-то вроде этого, возможно, ошибка при копировании файла журнала задания:

pbs_mom: LOG_ERROR::sys_copy, command '/usr/bin/scp -rpB /var/spool/torque/spool...

Вы можете найти актуальный журнал из этого прогона в /var/spool/torque/undelivered/,

Проблема может быть с PBS_SCP команда, которая требует доступа ssh без пароля к компьютеру, обычно она использует такую ​​команду: $PBS_SCP -rpB <path to source> <user>@<destination.host>:<path to destination>

Другие вопросы по тегам