Настройка кластерного хранилища Beowulf

Я изучаю компьютерную инженерию и работаю над проектом с кластером лезвий Verari, немного устаревшим по сегодняшним стандартам. Я приобрел некоторый опыт работы с Unix, но я совсем не эксперт.

Этот кластер Verari имеет 30 рабочих блейд-узлов, 20 с двумя двухъядерными процессорами AMD (Opteron 250), 4 Гб оперативной памяти DDR и два жестких диска IDE объемом 250 Гб. Остальные 10-блочные blade-серверы имеют два четырехъядерных процессора Opteron и 8-Гбайт оперативную память с теми же жесткими дисками IDE. Эти 30 узлов подключены к коммутационной панели, которая заканчивается на двух гигабитных коммутаторах, соединенных друг с другом двумя кабелями Cat-6, и соединение на обоих коммутаторах включено. Кроме того, у меня есть рабочая станция IBM, на которой размещены DNS, DHCP, HTTP, LDAP, PXE/TFTP и сервер FOG для моего домена.

Моя миссия - установить кластер beowulf с этим оборудованием. Он будет использоваться для программ MPI, научных расчетов и геологического моделирования. Вначале я планировал использовать CentOS 6.5 с хорошим файлом кикстарта, чтобы облегчить развертывание с программной настройкой RAID 1 на каждом узле, центральную аутентификацию пользователей с сервером OpenLDAP, программное обеспечение OpenMPI и диспетчер ресурсов SLURM.

Поскольку у меня пока нет централизованного хранилища для использования, мне нужно искать способ сделать домашние каталоги пользователей доступными для каждого вычислительного узла, с минимальными накладными расходами и обеспечением некоторой избыточности, если что-то пойдет не так (это 2004~2006 аппаратное обеспечение и более подвержены сбоям). Я подумал о том, чтобы использовать автоматически подключенные NFS-ресурсы, при этом каждый вычислительный узел экспортировал папку /home и путь homeDirectory, сохраненный в учетной записи ldap пользователя. В результате получается соединение до 30 NFS-серверов на гигабайтном канале, смешивание узлов хранения с вычислительными узлами, что не является хорошей практикой, но это то, что я получил. Помните, что это жесткие диски IDE, поэтому у нас есть старое доброе узкое место для записи и чтения.

Другая идея, которая приходит мне в голову, - это использовать распределенную файловую систему, снова смешивая вычислительные узлы с узлами хранения. У меня есть красный GlusterFS, Ceph, AFS, PVFS2, OrangeFS и Luster. Для того, что мне нужно, я думаю, что Luster - это путь, но он предназначен для группы серверов NAS/SAN, подключенных к вычислительным узлам с Infiniband, Myrinet или другим высокоскоростным соединением с низкой задержкой. Чтобы использовать Luster в моей инфраструктуре, мне понадобится центральный узел для MDT и MDS и другие 29 узлов в качестве узлов OST/ вычисления. Я могу восстановить в случае сбоя с обоими вариантами, но я не знаю, как Lustre будет масштабироваться с более чем 30 узлами, выступающими в качестве хранилища и вычислительных единиц одновременно.

Кто-нибудь имеет лучшее представление о том, что использовать в моем проекте? Есть опыт или отзывы с подобными настройками?

Заранее спасибо за ваши ответы.

1 ответ

Мое использование кластеров всегда было первичным, а скорость - второстепенной.

Я обнаружил, что очень консервативный подход может решить обе задачи, если мы говорим о менее чем 1000 одновременно работающих пользователей.

Для домашних директорий я бы выбрал простой двухузловый активный / пассивный кластер на основе nfs с четным количеством долей, распределенных между двумя узлами в роли первичного / вторичного drbd.

Другие вопросы по тегам