Многопользовательское (многопользовательское) решение для контейнерной инфраструктуры GPU
Что нам нужно: Несколько команд из разных компаний хотят поделиться нашими графическими процессорами для задач глубокого обучения (три компьютера с несколькими графическими процессорами в каждом). Так что управляйте несколькими графическими процессорами для нескольких пользователей.
- Разные команды не должны иметь доступа к данным других команд.
- Команды сами должны иметь возможность запускать любой контейнер, который им нужен (с графическим процессором, например, tenorflow и т. Д.)
- У каждой команды должно быть не менее 8 графических процессоров и не более 15 графических процессоров, поэтому большую часть времени используются графические процессоры.
- Статистика об использовании графических процессоров была бы полезна, чтобы увидеть, кто их не использует.
- Доступ нескольких контейнеров к одним и тем же наборам данных (на команду) для обучения на
- Команды не должны иметь возможность покинуть контейнер, например, смонтировать '/' с хоста в контейнер докера и удалить / удалить / отредактировать случайные файлы на сервере, что может привести к взлому данных.
Вопрос: Каковы лучшие инструменты с открытым исходным кодом для достижения этой цели?
например что то типа ранчер 2.0? Мезосфере? Как нам настроить хранилище? NFS? Как работает Uber? Google? Другие стартапы DL делают это?
Похожие неотвеченные вопросы: