Самый быстрый способ сортировки очень больших файлов, желательно с прогрессом
У меня есть плоский файл объемом 200 ГБ (одно слово в строке), и я хочу отсортировать файл, затем удалить дубликаты и создать из него один чистый окончательный TXT-файл.
Я старался sort
с --parallel
но он работал в течение 3 дней, и я был разочарован и убил процесс, так как не увидел никаких изменений в чанке файлов, которые он создал в /tmp.
Мне нужно как-то увидеть прогресс и убедиться, что он не застрял и не работает. Какой лучший способ сделать это? Существуют ли какие-либо инструменты для Linux или проекты с открытым исходным кодом, предназначенные для чего-то подобного?