Сервер графического процессора зависает во время простоя графического процессора
У нас есть новый сервер Supermicro AS-4124GS-TNR, оснащенный восемью видеокартами NVIDIA RTX A6000. ОС — Ubuntu 20.04.2, версия драйвера NVIDIA — 460.73.01 (драйвер Nouveau не используется), версия CUDA — 11.2.
Мы провели несколько длительных тестов графических процессоров, и система оказалась стабильной. Однако после некоторого простоя графического процессора система неоднократно выходила из строя.
Мы предполагаем, что для предотвращения сбоев во время простоя графического процессора необходимо установить значение 1 (предположение, подкрепленное другими пользовательскими отчетами, найденными в Интернете).
Единственный известный нам способ сделать это — запустить X (например, запустив gdm), а затем установить соответствующее значение с помощью (запуск без X/gdm приводит к «Невозможно инициализировать сервер: Не удалось подключиться: Соединение отклонено» . ) . Но при остановке X/gdm значение автоматически сбрасывается на 2. К сожалению, оставлять X/gdm в рабочем состоянии невозможно, поскольку это также приводит к нестабильности системы.
Итак, наша проблема выглядит следующим образом:
- Простой графического процессора + != 1 может привести к зависанию системы.
можно установить только через подключен к работающему X/dm(?). Чтобы постоянно установить значение 1 X/dm(?), необходимо продолжать работу. - Запущенный X/gdm может вызвать сбой системы.
Верны ли наши предположения? / Испытывают ли подобные проблемы и другие?
Как решить проблему зависания графического процессора во время простоя?
1 ответ
Нет необходимости запускать сеанс графического интерфейса (или даже устанавливать его!), чтобы изменить такие настройки;
Проверьте, чтобы убедиться:
# nvidia-settings -q GpuPowerMizerMode
Attribute 'GPUPowerMizerMode' (blacktemple:1[gpu:0]): 1.
Valid values for 'GPUPowerMizerMode' are: 0, 1 and 2.
'GPUPowerMizerMode' can use the following target types: GPU.
Для восьми графических процессоров просто напишите простой скрипт, например:
for n in $(seq 0 7); do
nvidia-settings -a "[gpu:$n]/GpuPowerMizerMode=1"
done
и запустите его при запуске любым удобным для вас способом.
Я не могу сказать, связаны ли ваши сбои с использованием GpuPowerMizerMode!=1. Если это так, то, вероятно, у вас какое-то неисправное оборудование, которое вам следует найти и заменить.