Удаление временного каталога из HDFS
Есть ли умный способ удаления старых файлов из каталога hdfs /tmp? (Просто чтобы убедиться, я не говорю о Unix FS / TMP)
2 ответа
hadoop fs -stat "%Y" "/path/*"
Будет выводить временные метки всего в /path/. Используйте это вместе с отсечкой относительно того, что вы считаете слишком молодым, и вы можете очистить это в сценарии оболочки, запущенном cron.
Это может быть умнее, чем анализировать другие вещи, выводимые hadoop fs.
Вот (исходный код) небольшой инструмент, который делает эту работу: https://github.com/mag-/hdfs-cleanup/
Я мог бы написать один самостоятельно (или перенести данный на Python), поэтому мне не нужно создавать цепочку сборки для Golang в моей компании.
И еще один для пользователей Ruby: https://github.com/nmilford/clean-hadoop-tmp