Самый быстрый способ сортировки очень больших файлов, желательно с прогрессом

У меня есть плоский файл объемом 200 ГБ (одно слово в строке), и я хочу отсортировать файл, затем удалить дубликаты и создать из него один чистый окончательный TXT-файл.

Я старался sort с --parallel но он работал в течение 3 дней, и я был разочарован и убил процесс, так как не увидел никаких изменений в чанке файлов, которые он создал в /tmp.

Мне нужно как-то увидеть прогресс и убедиться, что он не застрял и не работает. Какой лучший способ сделать это? Существуют ли какие-либо инструменты для Linux или проекты с открытым исходным кодом, предназначенные для чего-то подобного?

0 ответов

Другие вопросы по тегам