Существует ли прямой веб-прокси, который проверяет robots.txt и выполняет его на удаленных доменах?

Существует ли прямой прокси-сервер, который будет искать и подчиняться robots.txt файлы в удаленных интернет-доменах и применять их от имени заказчиков, проходящих через прокси?

например, представьте себе веб-сайт www.example.com, на котором есть robots.txt файл, который ограничивает определенные URL-адреса и применяет задержки сканирования к другим.

После этого несколько автоматических клиентов (например, сканеры, скребки), используя прокси-сервер, могут получить доступ к веб-сайту www.example.com без нарушения robots.txt директивы И без необходимости доступа к файлу (=> более простые клиенты и меньше запросов на получение robots.txt)

(В частности, я смотрю на версию спецификации "GYM2008" - http://nikitathespider.com/python/rerp/ - потому что она широко используется)

1 ответ

Решение

Я не уверен, почему обеспечение соблюдения robots.txt будет работа прокси: гусеничный робот должен тянуть robots.txt и следуйте инструкциям, содержащимся в этом файле, до тех пор, пока прокси-сервер вернет правильный robots.txt Данные и сканер справляются с этими данными, и если сканер поддерживает использование прокси-сервера, вы получите все преимущества прокси-сервера без необходимости работы.

**

Тем не менее, я не знаю ни одного прокси-сервера, который выполняет то, что вы, похоже, запрашиваете (анализируйте robots.txt с сайта и возвращайте только то, что будет разрешено этим файлом - предположительно для управления роботом-обходчиком, который не ' т уважение robots.txt?). Написание прокси, который обрабатывает это, потребует выполнения сопоставления / проверки user-agent-to-robots.txt для каждого запроса, который получает прокси, что, безусловно, возможно (вы можете сделать это в Squid, но вам нужно собрать скрипт для превращения файла robots.txt в правила конфигурации squid и периодического обновления этих данных), но это, несомненно, будет ударом по эффективности прокси.
Исправление сканера является лучшим решением (оно также позволяет избежать "устаревших" данных, отправляемых сканеру прокси-сервером. Обратите внимание, что хороший робот-сканер проверяет время обновления в заголовках HTTP и выбирает страницы только в том случае, если они изменились...))

Другие вопросы по тегам