Как настроить прямой прокси-сервер для хранения исторического зеркала посещаемых веб-сайтов?
Я собираю информацию о календарях государственных служащих. Это вся общедоступная текстовая информация. Я хотел бы сохранить копию необработанных HTML-файлов, которые я очищаю, для исторических целей, а также на случай, если возникнет ошибка и мне нужно будет повторно запустить парсеры.
Это звучит как отличный вариант использования прямого прокси-сервера, такого как Squid или Apache Traffic Server. Однако я не смог найти в их документах способа обоих:
- Сохраняйте постоянную историю кэшированных страниц.
- Доступ к старым версиям кэшированных страниц (например, Wayback Machine)
Кто-нибудь знает возможно ли это? Я потенциально мог бы отразить страницы, используяwget
илиhttrack
, но прямой кеш является лучшим решением, поскольку процесс кэширования управляется самим парсером.
Спасибо!