Экономичное, долгосрочное архивирование видео и изображений? ~50 ТБ
Моя лаборатория находится в процессе настройки небольшого сервера, который хранит данные (в основном данные видео и изображений, а также несколько документов) для проекта, над которым наша группа в данный момент работает. Исторически, после того, как исследовательский проект заканчивается, данные случайно оказываются архивированными на одном жестком диске, или большой куче DVD-дисков (или компакт-дисков в старину), и / или некоторые из видео оказались в кассетах Sony DV или даже VHS ленты (эта лаборатория была активна с начала 90-х), ИЛИ смесь всего вышеперечисленного...
Вопрос: Как лучше всего: (1) объединить их ВСЕ в один и тот же формат и носитель данных, и (2), каков наилучший носитель для долгосрочного архивирования таких данных для очень случайного доступа (скажем, 30+ лет?)? К сожалению, у нас нет бюджета на уровне предприятия (мы всего лишь ~10 человек лаборатории), поэтому не можем делать вещи, которые стоят сотни тысяч долларов.
Спасибо!
PS Учитывая, что наше старое видео и изображения имеют меньшее разрешение, но последние огромны, я думаю, что мы говорим о 30-40 ТБ для действительно старых данных, еще 10-20 ТБ для последних данных, затем ежегодные добавления около 5 ТБ.,
6 ответов
К сожалению, нет лучшего способа для вас. 30-летняя архивация цифровых медиа является очень сложной проблемой и требует рутинных инвестиций. Единственными форматами, которые гарантированно будут читаться через 30 лет, являются ASCII и UTF8, которые не являются видеоформатами. Изменяются форматы хранения, 8 дорожек с катушек, которые мы использовали 30 лет назад, почти невозможно прочитать в наши дни, даже если данные все еще находятся на ленте (есть интересная история о том, как НАСА восстанавливает 40-летний ленточный накопитель чтобы получить на некоторые недавно восстановленные / обнаруженные ленты данных Apollo). Лучше всего ставить периодические, я бы сказал, каждые 5 лет оценки вашей архивной среды с достаточным бюджетом для перевода старых форматов в новые.
Вы, наверное, знаете лучше, чем я, но видео пейзаж быстро меняется. Онлайн редактирование в реальном времени теперь возможно, где это было возможно только на серьезно хорошем комплекте даже 10 лет назад. Кто знает, как все будет выглядеть через 30 лет.
- Установите свое архивное окно на 5 лет.
- В ближайшей перспективе достаточно большого массива хранения (
- Большой и медленный диск объемом 50 ТБ можно купить менее чем за 70 тыс. долл., возможно, гораздо дешевле.
- Накопитель на магнитной ленте LTO5 и 50 лент (стоимостью более 50 ТБ) можно приобрести менее чем за 15 тысяч долларов.
- В ближайшей перспективе достаточно большого массива хранения (
- В каком формате вы храните видео, зависит от вас.
- Начните искать и конвертировать все ваши старые вещи в это новое хранилище.
- По истечении 5 лет сделайте еще одну полную оценку вашей архивной среды.
- Какие форматы вы используете?
- Какие новые форматы?
- Какие кодеки кажутся тупиками, и какие носители хранятся в таком виде?
- Решите, как вы собираетесь перейти на более новые методы хранения (форматы данных, диск / лента / что-то еще) и тратите соответственно.
- Повторите 6 раз.
Это должно привести вас к 30 годам.
Я полностью согласен с постом sysadmin1138 во всех отношениях, но не думаю, что у вас будет бюджет, чтобы действительно достичь того, чего вы хотите.
Вам нужно создать 5 основных функций;
- стандартизированная политика в отношении контента и каталогов - я знаю, что вы хотите хранить все в одном формате, но вы действительно должны рассмотреть два - PDF для изображений и H.264 для видео - оба формата с долгосрочной поддержкой и многоплатформенным кодом, который почти безусловно, будет поддерживаться той или иной стороной в течение 25-50 лет в их нынешнем виде просто благодаря существующему использованию во всем мире.
- каталог или CMS для индексации и публикации контента.
- система загрузки контента - это займет все ваши медиа, упакует, закодирует, сохранит и обновит каталог для каждого нового фрагмента контента. Вам также потребуется ручная или автоматическая проверка качества контента.
- основное хранилище контента - оно будет иметь два основных блока хранения; один маленький для хранения исходного контента, пока он транскодируется / проверяется, и гораздо больший блок для содержания контента "рядом". Это единственное допустимое использование RAID 6, с которым мне приходилось сталкиваться, но попробуйте использовать диски корпоративного качества с рабочим циклом 24x365.
- Система долгосрочного резервного копирования - это то место, куда будут потрачены реальные деньги, вам нужно будет выбрать поставщика, который предлагает действительно долгосрочное резервное копирование. Если бы я делал это прямо сейчас, я бы по-прежнему использовал магнитную ленту на диске исключительно из-за долговечности данных, возможно, у IBM, поскольку у них большой опыт в этой области. Вы также должны учитывать, что вам также необходимо регулярно выполнять восстановление на ленту и проверять данные, а это означает, что вам потребуется третий блок хранения, по крайней мере, такой же большой, как и самая большая лента на вашем компьютере, и системы, конечно же, для проверки. Вдобавок ко всему, вам необходимо убедиться, что используемое вами программное обеспечение для резервного копирования будет работать в течение длительного времени, что-то вроде TAR на *nix, скорее всего, будет какое-то время, но функционально может не дать вам того, что вы хотите, поэтому убедитесь, что это не пропущено вашим поставщиком ленты.
То, что вы хотите сделать, может быть сделано, я делал это сам несколько раз за последние два десятилетия или около того - но, боюсь, ни один из них не был дешевым.
Удачи.
Другие дали хороший совет о том, как сделать резервную копию ваших медиа. Я бы посоветовал вам потратить некоторое время на изучение руководящих принципов библиотеки конгресса:
http://www.digitalpreservation.gov/formats/index.shtml
Вы можете также рассмотреть возможность создания дешевого массива ZFS для whitebox. Возможно, вы могли бы сделать что-то, чтобы удовлетворить ваши потребности менее чем за 10 тысяч долларов. По мере того, как диски умирают, заменяйте их более крупными, и, таким образом, емкость вашего хранилища увеличивается по мере генерирования данных. Это, вероятно, сохранит вас на долгое время, и вы можете заменить его на устройство с большей емкостью, когда оно устареет. Преимущество заключается в том, что ваши данные находятся в сети (и поэтому к ним можно обращаться по мере необходимости), и они относительно хорошо защищены от битрота, серьезной проблемы, когда у вас так много данных.
Приличный вариант сборки был собран здесь:
Как бы это ни было сложно для технологов, я бы рекомендовал немедленно прекратить мысли о дисках и технологиях. Разбейте проблему своего бизнеса на вещи, по которым вам нужно принимать решения.
Пример:
- Как вы собираетесь работать с преобразованием аналоговых / разных цифровых форматов магнитных лент в цифровые носители, которые можно хранить в каком-то цифровом хранилище?
- Как вы собираетесь управлять контентом и соответствующими метаданными? Хранить легко - вы можете поместить все на ленту LTO и хранить ее в старом соляном руднике, но у вас не будет доступа к данным.
- Вы заново изобретаете колесо? Если вы в университете, есть ли уже решения для управления контентом централизованно? Или, если вам нужно купить / построить собственное управление контентом, есть ли централизованная инфраструктура, которую вы можете купить? (Лента, Объект хранения, SAN)
- Каковы реальные бизнес-требования? Что вы действительно хотите сохранить и почему? Зачастую, когда вы действительно углубляетесь в суть проблемы, реальные требования к длительному хранению фактически применяются только к небольшому подмножеству данных.
Помните, что если вы сохраняете данные в формате с потерями, а затем конвертируете в другой формат с потерями, а затем в другой, качество вашего видео будет ухудшаться с каждым переходом.
Далее идет речь об аудио, но в целом это применимо:
Вы можете конвертировать любой аудиоформат в Ogg Vorbis. Однако преобразование одного формата с потерями, такого как MP3, в другой формат с потерями, например, Vorbis, обычно является плохой идеей. И кодировщики MP3, и Vorbis достигают высоких коэффициентов сжатия, отбрасывая части звукового сигнала, которые вы, вероятно, не услышите. Однако кодеки MP3 и Vorbis сильно отличаются друг от друга, поэтому каждый из них будет отбрасывать разные части аудио, хотя, безусловно, есть некоторые совпадения. Преобразование MP3 в Vorbis включает в себя декодирование файла MP3 обратно в несжатый формат, такой как WAV, и повторное сжатие его с помощью кодера Ogg Vorbis. В декодированном MP3 не будет частей оригинального звука, которые кодировщик MP3 выбрал для удаления. Затем кодер Ogg Vorbis отбрасывает другие аудиокомпоненты при сжатии данных. В лучшем случае результатом будет файл Ogg, который звучит так же, как ваш оригинальный MP3, но, скорее всего, полученный файл будет звучать хуже, чем ваш оригинальный MP3. Ни в коем случае вы не получите файл, который звучит лучше, чем оригинальный MP3.
Поскольку многие музыкальные проигрыватели могут воспроизводить файлы как MP3, так и Ogg, нет никаких причин для того, чтобы вам приходилось переключать все ваши файлы в один или другой формат. Если вам нравится Ogg Vorbis, мы рекомендуем вам использовать его при кодировании с оригинальных аудиоисточников без потерь (таких как CD). При кодировании с оригиналов вы обнаружите, что вы можете создавать файлы Ogg меньшего размера или лучшего качества (или обоих), чем ваши MP3.
(Если вам абсолютно необходимо конвертировать из MP3 в Ogg, в Freshmeat есть несколько сценариев конвертации.)
Поэтому, вероятно, лучше выбрать формат без потерь, потому что, выбрав один формат с потерями, вы застряли с ним.
Возможно, мне чего-то не хватает, не могли бы вы все закодировать, используя открытый формат, в котором доступен исходный код для кодеков, а затем просто вставить все это в Amazon S3?
Таким образом, Amazon придется беспокоиться о реальном хранении данных, и, если не будет компьютеров, способных скомпилировать C/C++ через 30 лет, вы сможете получить информацию...