OpenMPI в SGE не работает, когда не наблюдается

Я знаю, что тема странная, но такова и моя проблема. В нашем кластере у нас есть SGE с OpenMPI, скомпилированный для тесной интеграции. Когда я его настраивал, он отлично работал в моих тестах, и до недавнего времени нареканий не было. Дело в том, что когда я отправляю задание с использованием OpenMPI PE и запускаю бинарный файл с помощью mpirun, это не удается.

Сообщения об ошибках похожи

fully.quallified.host.name - daemon did not report back when launched а также

[hostname:\d{5}] [[63730,0],\d{1,2}] routed:binomial: Connection to lifeline [[63730,0],0] lost

это даже для чего-то простого, как mpirun -np 40 --pernode hostname

теперь вот странная часть: если я включу подробный вывод для plm_base, это работает: mpirun -np 40 --mca plm_base_verbose 5 --pernode hostname работает!!! Нагрузки отладочного вывода, которые это производит на stderr, не содержат никаких признаков проблемы вообще.

Я пробовал это несколько раз, и я всегда могу воспроизвести это, так что я вполне уверен, что это не просто случайность. Проблема в том, что я сейчас озадачен.

Я, конечно, что-то скучаю, поэтому вот вопросы:

  1. Устанавливает ли многословие в этом случае также тихо устанавливает другие параметры?
  2. Что еще может вызвать это странное поведение?

С уважением.

Редактировать: конфигурация соответствующего PE:

pe_name           ompi-gcc
slots             2000
user_lists        NONE
xuser_lists       NONE
start_proc_args   /bin/true
stop_proc_args    /bin/true
allocation_rule   $round_robin
control_slaves    TRUE
job_is_first_task FALSE
urgency_slots     min

Ничего особенного... OpenMPI скомпилирован для комплексной интеграции и обнаруживает все, что ему нужно... Тем не менее, он не работает с qrsh, то есть работает только при отключении qrsh для rsh...

1 ответ

Не берите в голову. После некоторых проб и ошибок с другими параметрами plm Я нашел эту настройку plm_rsh_disable_qrsh устраняет проблему Однако это не объясняет, почему установка базового многословия на значение, отличное от 0, также устранила проблему. Это та часть, которую я до сих пор не понимаю.

Другие вопросы по тегам