8 GPU машина зависает
У нас есть сервер SuperMicro GPU с:
- 2x процессор Intel(R) Xeon(R) E5-2660 v4 с частотой 2,00 ГГц
- 512 ГБ памяти
- более чем достаточно места на диске
- X10DRG-O+-CPU (версия BIOS: 2.0a [текущая])
- Карта расширения X9DRG-O-PCIE PCI-E
- 8x GTX 1080
Он настроен с Ubuntu 16.04.1 LTS, драйвером NVIDA 367.57 и CUDA-8.0. Когда он работает, он работает временно нормально. Однако это совершенно бесполезно со стандартным ядром (v4.4) - система почти мгновенно зависает при выполнении чего-то нетривиального на любом графическом процессоре. Поэтому мы подозревали аппаратную проблему, но охлаждение в порядке, и вторая почти идентичная машина (просто другой производитель графических процессоров) демонстрирует точно такое же поведение.
Чтобы какое-то время оно работало нормально, вам нужно понизить версию Kernel до версии 3.14.1-trusty (до этого тестировали почти все версии). Но все еще случаются случайные зависания, обычно в журналах ничего нет. Иногда вся машина зависает, а иногда просто процессы, связанные с GPU.
Кажется, есть другие [1] люди [2], имеющие эту проблему, но решения там нет.
Кто-нибудь имеет такой же опыт работы с этим типом машины?
Обновление. Похоже, что машины работают стабильно (независимо от программного обеспечения), если карты вставлены только с одной стороны расширителя PCI-E, что означает, что все карты управляются одним и тем же процессором. Однако, похоже, что другая машина стабильно работает с 8 картами (время безотказной работы около 4 месяцев) с ядром 3.19 после нескольких месяцев проблем, описанных выше. Bizarre.
[1] https://devtalk.nvidia.com/default/topic/958927/gpu-job-fail-/
2 ответа
У меня была точно такая же проблема на том же компьютере. Чтобы это исправить, вам нужно будет отключить встроенную VGA, изменив перемычку JPG1 на материнской плате. К сожалению, вам нужно будет удалить дочернюю плату, чтобы сделать это. Обратите внимание, что для переустановки дочерней платы может потребоваться приложить немного усилий, чтобы она снова правильно подключилась к материнской плате.
Существует известная проблема с шиной PCI (управление питанием), которая, похоже, решена с помощью SuperMicro. Мы только что получили обновление прошивки BIOS+ от них и тестируем его. Я не думаю, что смогу поделиться обновлением (не уверен насчет лицензирования), поэтому посоветую вам обратиться в SuperMicro.