Демон создания жестких ссылок на файловом сервере Linux, который находит идентичные файлы
У меня есть сервер Linux, на котором я храню только новые файлы или переименовываю каталоги и никогда не редактирую файлы. Он содержит резервные копии с других серверов Linux.
Из-за определенных обстоятельств существует довольно много повторяющихся файлов, часто с разными именами.
Существует ли какой-либо бесплатный инструмент Linux, который периодически сканирует файловую систему и имеет базу данных с именами файлов, размерами и, возможно, sha1sums, а затем идентифицирует дубликаты и заменяет их жесткими ссылками?
2 ответа
Некоторые инструменты взяты из https://unix.stackexchange.com/questions/3037/is-there-an-easy-way-to-replace-duplicate-files-with-hardlinks
- trimtrees.pl
- fduples -L
- findup -m (из fslint)
- rdfind -makehardlinks
Вы можете запустить один из них в работе cron.
Вы можете использовать дедупликацию файловой системы. В Linux есть два основных варианта - btrfs и zfs.
Недостатком btrfs будет то, что он все еще не помечен как стабильный и не имеет fsck.
ZFS отсутствует в ядре Linux из-за проблем с лицензированием, но есть модуль ядра с поддержкой большинства дистрибутивов Linux. Кроме того, ZFS имеет своего рода онлайн-fsck с функцией очистки. Вы можете посмотреть поддерживаемые дистрибутивы на http://zfsonlinux.org/
Оба имеют функции сжатия, дедупликации и моментальных снимков без каких-либо дополнительных демонов пользовательского пространства, что делает их идеальными для решений резервного копирования.