Демон создания жестких ссылок на файловом сервере Linux, который находит идентичные файлы

У меня есть сервер Linux, на котором я храню только новые файлы или переименовываю каталоги и никогда не редактирую файлы. Он содержит резервные копии с других серверов Linux.

Из-за определенных обстоятельств существует довольно много повторяющихся файлов, часто с разными именами.

Существует ли какой-либо бесплатный инструмент Linux, который периодически сканирует файловую систему и имеет базу данных с именами файлов, размерами и, возможно, sha1sums, а затем идентифицирует дубликаты и заменяет их жесткими ссылками?

2 ответа

Некоторые инструменты взяты из https://unix.stackexchange.com/questions/3037/is-there-an-easy-way-to-replace-duplicate-files-with-hardlinks

  • trimtrees.pl
  • fduples -L
  • findup -m (из fslint)
  • rdfind -makehardlinks

Вы можете запустить один из них в работе cron.

Вы можете использовать дедупликацию файловой системы. В Linux есть два основных варианта - btrfs и zfs.

Недостатком btrfs будет то, что он все еще не помечен как стабильный и не имеет fsck.

ZFS отсутствует в ядре Linux из-за проблем с лицензированием, но есть модуль ядра с поддержкой большинства дистрибутивов Linux. Кроме того, ZFS имеет своего рода онлайн-fsck с функцией очистки. Вы можете посмотреть поддерживаемые дистрибутивы на http://zfsonlinux.org/

Оба имеют функции сжатия, дедупликации и моментальных снимков без каких-либо дополнительных демонов пользовательского пространства, что делает их идеальными для решений резервного копирования.

Другие вопросы по тегам