OpenMPI в SGE не работает, когда не наблюдается
Я знаю, что тема странная, но такова и моя проблема. В нашем кластере у нас есть SGE с OpenMPI, скомпилированный для тесной интеграции. Когда я его настраивал, он отлично работал в моих тестах, и до недавнего времени нареканий не было. Дело в том, что когда я отправляю задание с использованием OpenMPI PE и запускаю бинарный файл с помощью mpirun, это не удается.
Сообщения об ошибках похожи
fully.quallified.host.name - daemon did not report back when launched
а также
[hostname:\d{5}] [[63730,0],\d{1,2}] routed:binomial: Connection to lifeline [[63730,0],0] lost
это даже для чего-то простого, как mpirun -np 40 --pernode hostname
теперь вот странная часть: если я включу подробный вывод для plm_base, это работает: mpirun -np 40 --mca plm_base_verbose 5 --pernode hostname
работает!!! Нагрузки отладочного вывода, которые это производит на stderr, не содержат никаких признаков проблемы вообще.
Я пробовал это несколько раз, и я всегда могу воспроизвести это, так что я вполне уверен, что это не просто случайность. Проблема в том, что я сейчас озадачен.
Я, конечно, что-то скучаю, поэтому вот вопросы:
- Устанавливает ли многословие в этом случае также тихо устанавливает другие параметры?
- Что еще может вызвать это странное поведение?
С уважением.
Редактировать: конфигурация соответствующего PE:
pe_name ompi-gcc
slots 2000
user_lists NONE
xuser_lists NONE
start_proc_args /bin/true
stop_proc_args /bin/true
allocation_rule $round_robin
control_slaves TRUE
job_is_first_task FALSE
urgency_slots min
Ничего особенного... OpenMPI скомпилирован для комплексной интеграции и обнаруживает все, что ему нужно... Тем не менее, он не работает с qrsh, то есть работает только при отключении qrsh для rsh...
1 ответ
Не берите в голову. После некоторых проб и ошибок с другими параметрами plm
Я нашел эту настройку plm_rsh_disable_qrsh
устраняет проблему Однако это не объясняет, почему установка базового многословия на значение, отличное от 0, также устранила проблему. Это та часть, которую я до сих пор не понимаю.