Лучшие практики для резервного копирования в массивно параллельной сеточной системе

Я работаю в исследовательской группе крупной компании. Мы много работаем над системой обработки сетки со многими узлами (более 200, я не уверен, сколько именно) и несколькими жесткими дисками. Более 1000 ТБ данных.

Большая часть этих данных может быть воспроизведена, но это требует времени. Большая часть данных представляет собой код, который хранится в отдельных репозиториях RCS, которые могут иметь свою собственную резервную копию, но рабочие копии, конечно, находятся на обычных пользовательских дисках.

Может ли кто-нибудь указать мне на документ о передовой практике или что-то о том, как большинство компаний защищают такое количество данных?

Спасибо

1 ответ

  1. Наймите резервного администратора или инженера.
  2. Дайте ему или ей ваши требования и бюджет. (это может быть итеративный процесс.)
  3. Делай то, что он или она говорит.

Существует много возможностей для разработки эффективной системы резервного копирования для нужд вашего бизнеса. Вы можете сделать снимок данных на другие диски и затем зеркалировать их за пределами сайта (если у вас есть другой сайт), или отправить на ленту, или просто отправить на ленту прямо с ваших узлов. Могут возникнуть проблемы с параллелизмом данных, резервное копирование которых происходит в разное время - возможно, вашему приложению необходимо сначала выполнить экспорт или отключение? Мы не знаем, вы не сказали нам. Там много технических вопросов и проблем.

И первое, что нужно решить, это ваши реальные бизнес-потребности - каково ваше RTO (сколько времени вы можете потерять, пока ваши данные не будут восстановлены) и RPO (сколько данных вы можете позволить себе потерять между запусками резервного копирования)? Должно ли это быть частью плана аварийного восстановления или плана обеспечения непрерывности бизнеса, или если здание сгорело, вас больше не заботят ваши данные?

Другие вопросы по тегам