Существует ли распределенная система SAN/Storage?
Как и во многих других местах, мы просим наших пользователей не сохранять файлы на свои локальные машины. Вместо этого мы рекомендуем размещать их на файловом сервере, чтобы другие (с соответствующими разрешениями) могли их использовать и чтобы файлы были должным образом сохранены.
В результате у большинства пользователей большие жесткие диски, которые в основном пусты. Сейчас 2010 год. Конечно, есть система, которая позволяет превратить это пустое пространство в виртуальную сеть хранения данных или библиотеку документов?
Я представляю себе клиентскую программу, которая передается на ПК пользователей и координируется с центральным сервером. Сервер выглядит для пользователей как обычный файловый сервер, но вместо того, чтобы хранить все содержимое файла, он просто сохраняет запись о том, где эти файлы можно найти среди различных пользовательских компьютеров. Затем он согласовывает с нужными клиентами, чтобы обслуживать запросы файлов. Клиентское программное обеспечение сможет отвечать на такие запросы напрямую, а также быть достаточно умным, чтобы локально кэшировать последние файлы. Для обеспечения избыточности сервер может убедиться, что файлы копируются на несколько ПК, возможно, позволяя вам определять группы в разных местах, чтобы экземпляр всего хранилища находился в каждой группе, чтобы защитить себя от аварии в одном здании, уничтожая все остальное.
Очевидно, вы не указали бы здесь свой сервер базы данных, но для более простых вещей я вижу несколько преимуществ:
- Файлы часто могут быть переданы с ближайшего (или локального) компьютера.
- Распределите сетевое подключение, а не собирайте все файлы, передаваемые по одному соединению
- Дисковое пространство растет автоматически, как и ваша компания.
- В конечном итоге должно быть дешевле, так как вам не нужно хранить отдельный набор дисков
Я также вижу несколько недостатков:
- Время от времени ухудшается производительность ПК пользователя, если аппарат вынужден обслуживать или принимать передачу большого файла в течение загруженного периода.
- Записи должны распространяться по сети несколько раз (хотя я подозреваю, что это не является большой проблемой, так как чтение в большинстве случаев происходит чаще, чем запись)
- Тем не менее, необходимо время от времени отправлять полную копию данных за пределы площадки, и это затруднит проведение различий.
Думайте об этом как об облачной системе хранения, которая полностью живет в вашей корпоративной локальной сети и использует ваше существующее пользовательское оборудование.
Наш старый основной файловый сервер должен быть удален примерно через 2 года, и я собираюсь заменить его небольшим SAN. Наш текущий файловый сервер использует около 400 ГБ общего ресурса 1 ТБ. Мы сократили его только потому, что наше пространство для резервного копирования было ограничено. Я рассчитываю расширить как минимум до 4 ТБ полезного пространства при его замене, может быть, гораздо больше, если цены упадут так, как я ожидаю. Я думаю, что-то вроде этого было бы лучше. Как школа, у нас есть пара компьютерных лабораторий, которые я могу оставить работающими, что было бы идеально, чтобы добавить немного дополнительной избыточности в такую систему.
За очень немногими исключениями, наши пользователи заполняют менее 40 ГБ своих жестких дисков объемом 120 ГБ, что означает, что я могу легко зарезервировать 65 ГБ на машину. И это будет только увеличиваться, так как новые машины будут поставляться с дисками на 250 Гб, и даже те, которые скоро могут быть больше. К тому времени, когда файловый сервер будет заменен, учитывая наш график замены настольных компьютеров, я ожидаю, что такая система позволит использовать 5 ТБ доступного хранилища, даже с учетом избыточности и истории.
К сожалению, самая близкая вещь, которую я могу найти, - это Dienst, и это всего лишь статья, датированная 1994 годом. Я просто использую неправильные модные слова в своих поисках, или это действительно не существует? Если нет, то есть ли у меня большой недостаток?
5 ответов
Для меня это звучит так, будто вы описываете AFS, наиболее распространенной реализацией которого является OpenAFS. Основные концепции OpenAFS описаны здесь: http://docs.openafs.org/UserGuide/ch01.html.
AFS это:
- Распределенная. Файловая система на нескольких компьютерах, но все еще использует единое пространство имен, поэтому распределенная природа прозрачна для клиентского компьютера.
- Избыточная. Файлы могут существовать на нескольких узлах сервера одновременно, поэтому потеря нескольких узлов сервера не приводит к недоступности каких-либо данных.
- Масштабируемость. Очевидно, что некоторые реализации "Enterprise" охватывают до 25 000 узлов.
Да, большие диски в настольных системах конечных пользователей трагически не используются, когда вы правильно используете централизованное хранилище. Ну что ж. Некоторые недостатки использования гипотетического сетевого распределенного настольного компьютера:
Это должно было бы справиться с деградацией, вызванной отключением пользовательских машин. Кто-то не пришел сегодня и их машина выключена? Лучше надеяться, что документы там распределяются на включенные машины. Кто-то работает поздно вечером, и его машина - единственная, которая включена? Не повезло, прости. Если у вас тоже не скопировано все на настоящий файловый сервер - а потом, что вы получили?
Все должно иметь хорошее шифрование - в противном случае документы босса, содержащие его план по выводу средств, или документ HR, показывающий зарплату каждого, копируются на компьютер почтового клерка Джимми. На котором он работает LimeWire. Видишь, куда это идет?
Нечто подобное CleverSafe (имеет как открытые, так и коммерческие версии) может в основном делать то, что вы хотите, но управление очень ненадежными узлами может быть проблемой. CleverSafe обрабатывает многократные сбои узлов, но, возможно, недостаточно быстро для того, чтобы "постоянный отток" узлов можно было увидеть при использовании настольных компьютеров в качестве узлов хранения.
Я думаю, что есть аналогичные решения из академических работ, которые я читал в прошлом, но CleverSafe, кажется, реальный рабочий продукт, а не просто прототип. Компания существует с 2004 года.
SANsymphony 7.0 Storage Virtualization Software
ниже все цитируется с их сайта:
Основные характеристики
Независимый от устройства пул виртуальных дисков, синхронное зеркалирование (HA), высокоскоростное кэширование, асинхронная удаленная репликация, тонкое выделение ресурсов, автоматическое многоуровневое копирование, оперативные моментальные снимки, бесперебойная миграция дисков, непрерывная защита данных (CDP)
Тип доступа
Заблокируйте дисковый ввод-вывод через физическую или виртуальную сеть хранения данных. Доступ к файловой системе предоставляется по протоколам NFS/CIFS из базовой операционной системы Windows Server. Два метода доступа могут быть объединены для удовлетворения требований унифицированного хранилища (SAN/NAS) высокой доступности.
Поддерживаемые хост-среды
Компьютерные системы со стандартными операционными системами Windows, включая (Windows Server 2000, 2003, 2008, Hyper-V, Windows XP, Windows 7), UNIX, HP-UX, Sun Solaris, IBM AIX, RedHat Linus, Suse Linux, Apple MacOs, VMware. ESX / vSphere, Citrix XenServer,
Поддерживаемые диски (бэкэнд)
Любые внутренние диски, внешние диски, внешние дисковые массивы, JBOD, твердотельные диски (SSD) и интеллектуальные системы хранения, поддерживаемые в Windows Server 2008, могут быть подключены к узлам DataCore. Они могут быть подключены напрямую или подключены к SAN.
Это то, что вы после, да?
Самое близкое, что приходит мне в голову, - это Googles MapReduce или бесплатная альтернатива Hadoop, но она предназначена для масштабирования в петабайтную область для действительно больших веб-приложений.
Как правило, ваш сценарий не является чем-то, что я действительно хотел бы опробовать, так как полагаю, что административные накладные расходы на управление машинами для этой дополнительной услуги намного превзойдут любые выгоды, которые вы можете получить от этого.
Кроме того, я вижу определенный риск того, что в Windows (или в любой другой ОС) могут возникнуть не обнаруженные проблемы, которые могут привести к уязвимости для быстро распространяющегося червя, который может уничтожить всю сеть за считанные минуты, независимо от того, как Надежно и безопасно ваши системы настроены, и это займет все ваши пулы хранения данных с ним.
Кроме того, я не совсем уверен, что свободные объемы дисков в клиентских системах будут продолжать расти, так как я предполагаю, что в будущем в Интернет будет перенесено гораздо больше приложений, включая такие, как офисные приложения и даже Photoshop, что приведет к большой толчок для тонких клиентов (снова).