Как настроить прямой прокси-сервер для хранения исторического зеркала посещаемых веб-сайтов?

Question

Как настроить прямой прокси-сервер для хранения исторического зеркала посещаемых веб-сайтов?

Я собираю информацию о календарях государственных служащих. Это вся общедоступная текстовая информация. Я хотел бы сохранить копию необработанных HTML-файлов, которые я очищаю, для исторических целей, а также на случай, если возникнет ошибка и мне нужно будет повторно запустить парсеры.

Это звучит как отличный вариант использования прямого прокси-сервера, такого как Squid или Apache Traffic Server. Однако я не смог найти в их документах способа обоих:

Сохраняйте постоянную историю кэшированных страниц.
Доступ к старым версиям кэшированных страниц (например, Wayback Machine)

Кто-нибудь знает возможно ли это? Я потенциально мог бы отразить страницы, используяwgetилиhttrack, но прямой кеш является лучшим решением, поскольку процесс кэширования управляется самим парсером.

Спасибо!

0

squid mirror scraping apache-traffic-server

Источник

Vítor Baptista 11 ноя '22 в 16:37

0 ответов

Другие вопросы по тегам squid mirror scraping apache-traffic-server