SLURM, SSH, ADN NOHUP Поведение

Я являюсь администратором кластера, работающего на CentOS и использующего SLURM для отправки заданий с узла входа в систему для вычисления узлов. Недавно пользователь пожаловался на неожиданное поведение при работе. Если пользователь начинает работу с srun и затем выходит из системы, работа продолжает работать, как ожидалось. Однако, когда пользователь отключается по тайм-ауту SSH, задание уничтожается. Я повторил это поведение, убив оболочку, выполняющую задание, используя kill -1 ShellJobID и работа убита. Изучение журналов SLURM показывает, что задание фактически получило SIGKILL и не SIGHUP на основе линии WSIGTERM 9, Кроме того, если я бегу kill -1 ActiveSrunJob, рабочие места выходят с WSIGTERM 9, Как насчет выхода с помощью exit предотвращает отмену задания SLURM? Я был под впечатлением, и исследования, кажется, подтверждают это, SIGHUP распространяется на детей оболочки при выходе из системы. Я что-то упустил или совсем не в базе?

0 ответов

Другие вопросы по тегам