Посоветуйте, как лучше архивировать множество файлов с сервера на ледник S3
Я хотел бы лучше понять лучший подход к этой проблеме и любые ошибки, которые я мог бы пропустить с точки зрения загрузки CPU/Mem/Network/IO на сервере A:
Сервер A = производственный сервер, ориентированный на клиента, с файлами, которые я хочу заархивировать Сервер B = сервер, не относящийся к клиенту, для различных задач системного администратора
- Пропускная способность сети между этими серверами составляет 100 Мбит / с
- Я хочу свести к минимуму любое влияние на сервер A, перенеся всю работу на B
- Поэтому я сделаю общий ресурс NFS на A, чтобы B имел доступ к файлам
- Запустите скрипт на сервере B, чтобы найти и скопировать файлы из общего ресурса NFS A в его локальное хранилище
- Затем скрипт на сервере B выполнит многоэтапную загрузку в класс хранилища глубокого ледника AWS s3
Это самый оптимальный подход? Должен ли я вместо этого копировать файлы с сервера A на B, а затем запускать какие-либо команды, которые я хочу? Как такие команды, как find и tar работают в сети, какой сервер выполняет основную часть работы? Стоит ли ограничивать поиск и tar определенной пропускной способностью, если я запускаю их для файлов на общем ресурсе NFS?
PS: это около 10G (30000 файлов) в день, и я могу хранить их в течение года. Мертвый простой подход - просто запустить aws-синхронизацию на prod-сервере в нерабочее время... но это не похоже на элегантное решение.