SLURM, SSH, ADN NOHUP Поведение
Я являюсь администратором кластера, работающего на CentOS и использующего SLURM для отправки заданий с узла входа в систему для вычисления узлов. Недавно пользователь пожаловался на неожиданное поведение при работе. Если пользователь начинает работу с srun
и затем выходит из системы, работа продолжает работать, как ожидалось. Однако, когда пользователь отключается по тайм-ауту SSH, задание уничтожается. Я повторил это поведение, убив оболочку, выполняющую задание, используя kill -1 ShellJobID
и работа убита. Изучение журналов SLURM показывает, что задание фактически получило SIGKILL
и не SIGHUP
на основе линии WSIGTERM 9
, Кроме того, если я бегу kill -1 ActiveSrunJob
, рабочие места выходят с WSIGTERM 9
, Как насчет выхода с помощью exit
предотвращает отмену задания SLURM? Я был под впечатлением, и исследования, кажется, подтверждают это, SIGHUP
распространяется на детей оболочки при выходе из системы. Я что-то упустил или совсем не в базе?