Медленный этап синхронизации на gsutil rsync?

Я только начал использовать GCS в качестве резервной копии для своих веб-серверов. Один сервер имеет 1,2 миллиона файлов JPEG (3,5 ТБ), и все это без проблем прошло более 10 часов или около того.

Другой имеет 2,5 миллиона файлов JPEG (только миниатюры / превью - всего 300 ГБ). В первый раз, когда я сделал это, "состояние синхронизации при построении" прошло довольно быстро все 2,5 миллиона. Несколько минут. Моя сессия была прервана (хотя Wi-Fi пропал), и когда я подключился по SSH, чтобы попытаться запустить его снова, приглашение "В списке источников" быстро перебирает 10000, 20000, 30000. Затем происходит почти остановка. Через полчаса это только до 300 000. Я знаю, что это должно выяснить, какие файлы есть и у места назначения, но я не думаю, что это должно значительно замедлить эхо-запросы "При перечислении источника..."?

Предлагает ли это проблему с моей файловой системой, и если да, что я должен проверить?

Или это ожидаемое поведение по любой причине?

Пытается ли использовать gsutil rsync с 2 миллионами файлов в одном ведре плохой идеей? Я не смог найти никаких рекомендаций от Google о том, сколько файлов может находиться в корзине, так что я предполагаю, что это миллиарды / безлимит?

FWIW файлы находятся во вложенных подкаталогах, не более 2000 файлов в одном каталоге.

Спасибо

редактировать: точная команда, которую я использую:

gsutil -m rsync -r /var/www/ gs://mybucketname/var/www

1 ответ

Решение

Я обнаружил, что изменение

output_chunk.writelines(unicode(''.join(current_chunk)))

в

output_chunk.write(unicode(''.join(current_chunk)))

в /gsutil/gslib/commands/rsync.py имеет большое значение. Спасибо Майку из GS Team за помощь - это простое изменение уже выложено на github:

https://github.com/GoogleCloudPlatform/gsutil/commit/a6dcc7aa7706bf9deea3b1d243ecf048a06a64f2

Другие вопросы по тегам