Существует ли прямой веб-прокси, который проверяет robots.txt и выполняет его на удаленных доменах?
Существует ли прямой прокси-сервер, который будет искать и подчиняться robots.txt
файлы в удаленных интернет-доменах и применять их от имени заказчиков, проходящих через прокси?
например, представьте себе веб-сайт www.example.com, на котором есть robots.txt
файл, который ограничивает определенные URL-адреса и применяет задержки сканирования к другим.
После этого несколько автоматических клиентов (например, сканеры, скребки), используя прокси-сервер, могут получить доступ к веб-сайту www.example.com без нарушения robots.txt
директивы И без необходимости доступа к файлу (=> более простые клиенты и меньше запросов на получение robots.txt
)
(В частности, я смотрю на версию спецификации "GYM2008" - http://nikitathespider.com/python/rerp/ - потому что она широко используется)
1 ответ
Я не уверен, почему обеспечение соблюдения robots.txt
будет работа прокси: гусеничный робот должен тянуть robots.txt
и следуйте инструкциям, содержащимся в этом файле, до тех пор, пока прокси-сервер вернет правильный robots.txt
Данные и сканер справляются с этими данными, и если сканер поддерживает использование прокси-сервера, вы получите все преимущества прокси-сервера без необходимости работы.
**
Тем не менее, я не знаю ни одного прокси-сервера, который выполняет то, что вы, похоже, запрашиваете (анализируйте robots.txt с сайта и возвращайте только то, что будет разрешено этим файлом - предположительно для управления роботом-обходчиком, который не ' т уважение robots.txt
?). Написание прокси, который обрабатывает это, потребует выполнения сопоставления / проверки user-agent-to-robots.txt для каждого запроса, который получает прокси, что, безусловно, возможно (вы можете сделать это в Squid, но вам нужно собрать скрипт для превращения файла robots.txt в правила конфигурации squid и периодического обновления этих данных), но это, несомненно, будет ударом по эффективности прокси.
Исправление сканера является лучшим решением (оно также позволяет избежать "устаревших" данных, отправляемых сканеру прокси-сервером. Обратите внимание, что хороший робот-сканер проверяет время обновления в заголовках HTTP и выбирает страницы только в том случае, если они изменились...))