Крутящий момент работает в половине случаев. Не дает разрешения другой половине

Мы обновили нашу ОС с Debian 5 до Debian 6 и, следовательно, обновили Torque.

Теперь qstat и qsub работают около 1 минуты и не работают в течение еще одной минуты.

У меня есть крутящий момент 2.5.5 (но я пробовал 2.4.8, и у него были те же проблемы).

Когда мы запускаем qstat, половина времени это работает, а половину времени мы получаем:

pbs_iff: cannot read reply from pbs_server
No Permission.
qstat: cannot connect to server torque-server (errno=15007) Unauthorized Request

На маме системный журнал:

pbs_mom: LOG_ERROR::Operation now in progress (115) in
TMomFinalizeChild, cannot open interactive qsub socket to host
girkelab-3.ucr.edu:51056 - 'cannot connect to port 777 in
client_to_svr - errno:115 Operation now in progress' - check routing
tables/multi-homed host issues

На сервере:

/opt/torque-2.5.5/bin/qmgr -c 'print server'
#
# Create queues and set their attributes.
#
#
# Create and define queue batch
#
create queue batch
set queue batch queue_type = Execution
set queue batch resources_default.nodes = 1
set queue batch enabled = True
set queue batch started = True
#
# Set server attributes.
#
set server scheduling = True
set server acl_hosts = torque-server
set server acl_hosts += torque-server+biocluster+parrot+owl
set server acl_hosts += owl-33+biocluster-33
set server acl_hosts += girkelab-3+girkelab-4
set server operators = root@torque-server
set server default_queue = batch
set server log_events = 511
set server mail_from = adm
set server query_other_jobs = True
set server scheduler_iteration = 600
set server node_check_rate = 150
set server tcp_timeout = 6
set server log_level = 0
set server submit_hosts = biocluster+parrot+owl
set server submit_hosts += girkelab-3+girkelab-4
set server submit_hosts += owl-33+biocluster-33
set server allow_node_submit = True
set server next_job_number = 206082

Почему это говорит об ошибке разрешения, когда это работает половину времени?

Что я могу сделать, чтобы диагностировать проблему?

2 ответа

Вывод: сервер был заблокирован из-за мертвого узла.

Прежде чем мы поняли это, многие вещи были опробованы:

  • Посмотрел отдельные пакеты через tcpdump.
  • Сервер, клиенты и журналы мамы.
  • Протестировал мою сетевую файловую систему, если она зависала.
  • Проверено, если трафик UPD потерял пакеты.

Ничего, был не прав, и что бы я ни пытался, временная ошибка "Нет разрешения" не исчезнет.

У меня был один узел, который обветшал накануне вечером. У нас были проблемы раньше, когда Torque мог заклинить вместо того, чтобы обнаружить мертвые узлы. Итак, я удалил узлы из /var/spool/torque/server_priv/nodes (стандартное расположение конфигурации Torque). Перезапустил крутящий момент, но это не помогло.

Поздно вечером, с моим боссом, мы нашли решение. Там были куча старых файлов ("работающих заданий") в /var/spool/torque/server_priv/jobs/ который принадлежал удаленному мертвому узлу. Удалять. Запустить снова. Решаемые.

"Отсутствует разрешение"?!

Ну, вы не единственный: http://comments.gmane.org/gmane.comp.clustering.torque.user/8401

Другие вопросы по тегам