IP-адрес пауков и "официальных" веб-ботов
Есть ли официальный API для http://iplists.com/, откуда я могу получить список пауков?
Мое намерение состоит в том, чтобы внести эти IP-адреса в белый список для очистки сайта.
3 ответа
Не то, чтобы я знал, и это может измениться в любое время по усмотрению операторов ботов.
Google предлагает некоторые конкретные рекомендации и объяснения по этому поводу:
Проблема в том, что если / когда диапазоны IP-адресов наших сканеров изменятся, не все будут знать, что проверять. На самом деле, команда по сканированию перенесла IP-адреса Google-ботов пару лет назад, и вебмастерам было очень сложно предупреждать, кто жестко задал диапазон IP-адресов.
и они предлагают использовать проверку DNS (вперед и назад) для проверки:
Говоря веб-мастерам использовать DNS для проверки в каждом конкретном случае, кажется, лучший способ пойти. Я думаю, что рекомендуемый метод - сделать обратный поиск DNS, убедиться, что имя находится в домене googlebot.com, а затем выполнить соответствующий прямой поиск DNS->IP, используя это имя googlebot.com; например:
$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
$ host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
Я не думаю, что достаточно просто выполнить обратный поиск DNS, потому что спуфер может настроить обратный DNS, чтобы он указывал на crawl-abcd.googlebot.com.
Это, вероятно, лучший общий совет, но он несколько ресурсоемкий (циклы ЦП для поиска DNS).
Я не знаю ни одного списка IP-адресов для "хороших" поисковых роботов, и если бы он был, он был бы ужасно устаревшим довольно быстро, как вы уже обнаружили.
Одна вещь, которую вы можете сделать, это создать ловушку для ботов. Это просто в теории: вы создаете страницу, которая связана с вашим веб-сайтом, но скрыта от обычных пользователей (например, с помощью трюков CSS), а затем Disallow
это внутри robots.txt
, Затем вы ждете неделю, так как законные поисковые системы могут кешировать robots.txt
в течение этого долгого времени начинайте запрещать все, что попадает на страницу прерываний (например, с fail2ban).
Бот Google: https://developers.google.com/search/apis/ipranges/googlebot.json .
Бот Bing: https://www.bing.com/toolbox/bingbot.json
Facebook https://developers.facebook.com/docs/sharing/webmasters/crawler/