Медленный этап синхронизации на gsutil rsync?
Я только начал использовать GCS в качестве резервной копии для своих веб-серверов. Один сервер имеет 1,2 миллиона файлов JPEG (3,5 ТБ), и все это без проблем прошло более 10 часов или около того.
Другой имеет 2,5 миллиона файлов JPEG (только миниатюры / превью - всего 300 ГБ). В первый раз, когда я сделал это, "состояние синхронизации при построении" прошло довольно быстро все 2,5 миллиона. Несколько минут. Моя сессия была прервана (хотя Wi-Fi пропал), и когда я подключился по SSH, чтобы попытаться запустить его снова, приглашение "В списке источников" быстро перебирает 10000, 20000, 30000. Затем происходит почти остановка. Через полчаса это только до 300 000. Я знаю, что это должно выяснить, какие файлы есть и у места назначения, но я не думаю, что это должно значительно замедлить эхо-запросы "При перечислении источника..."?
Предлагает ли это проблему с моей файловой системой, и если да, что я должен проверить?
Или это ожидаемое поведение по любой причине?
Пытается ли использовать gsutil rsync с 2 миллионами файлов в одном ведре плохой идеей? Я не смог найти никаких рекомендаций от Google о том, сколько файлов может находиться в корзине, так что я предполагаю, что это миллиарды / безлимит?
FWIW файлы находятся во вложенных подкаталогах, не более 2000 файлов в одном каталоге.
Спасибо
редактировать: точная команда, которую я использую:
gsutil -m rsync -r /var/www/ gs://mybucketname/var/www
1 ответ
Я обнаружил, что изменение
output_chunk.writelines(unicode(''.join(current_chunk)))
в
output_chunk.write(unicode(''.join(current_chunk)))
в /gsutil/gslib/commands/rsync.py имеет большое значение. Спасибо Майку из GS Team за помощь - это простое изменение уже выложено на github:
https://github.com/GoogleCloudPlatform/gsutil/commit/a6dcc7aa7706bf9deea3b1d243ecf048a06a64f2