Slurm: как узнать, сколько памяти не выделено на данном узле

Я новичок в SLURM. Я ищу удобный способ, чтобы увидеть, сколько памяти в узле / списке узлов доступно для моего распределения srun.

Я уже играл с sinfo, scontrol и sstat, но ни один из них не дает мне нужную информацию в одном удобном обзоре.

У меня была идея написать сценарий оболочки, чтобы получить все поля всех заданий из scontrol и суммировать их. Но должен быть более легкий путь. Было бы здорово, если у кого-то есть подсказка или идея!

1 ответ

Решение

7-й столбец вывода sinfo -N -l скажет вам, сколько памяти установлено в каждом вычислительном узле.

$sinfo -N -l
Wed Nov  6 16:31:45 2013
NODELIST                NODES PARTITION       STATE CPUS    S:C:T MEMORY TMP_DISK WEIGHT FEATURES REASON              
node001                    1      Def*        idle    8    2:4:1  24150   920644    100 Xeon,X55 none  

Команда scontrol -o show nodes скажет вам, сколько памяти уже используется на каждом узле. Ищите AllocMem запись. (Требуется Slurm 2.6.0 или более поздняя версия)

$ scontrol -o show nodes | awk '{ print $1, $13, $14}'
NodeName=node001 RealMemory=24150 AllocMem=0
Другие вопросы по тегам