IP-адрес пауков и "официальных" веб-ботов

Есть ли официальный API для http://iplists.com/, откуда я могу получить список пауков?

Мое намерение состоит в том, чтобы внести эти IP-адреса в белый список для очистки сайта.

3 ответа

Не то, чтобы я знал, и это может измениться в любое время по усмотрению операторов ботов.

Google предлагает некоторые конкретные рекомендации и объяснения по этому поводу:

Проблема в том, что если / когда диапазоны IP-адресов наших сканеров изменятся, не все будут знать, что проверять. На самом деле, команда по сканированию перенесла IP-адреса Google-ботов пару лет назад, и вебмастерам было очень сложно предупреждать, кто жестко задал диапазон IP-адресов.

и они предлагают использовать проверку DNS (вперед и назад) для проверки:

Говоря веб-мастерам использовать DNS для проверки в каждом конкретном случае, кажется, лучший способ пойти. Я думаю, что рекомендуемый метод - сделать обратный поиск DNS, убедиться, что имя находится в домене googlebot.com, а затем выполнить соответствующий прямой поиск DNS->IP, используя это имя googlebot.com; например:

$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.

$ host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1

Я не думаю, что достаточно просто выполнить обратный поиск DNS, потому что спуфер может настроить обратный DNS, чтобы он указывал на crawl-abcd.googlebot.com.

Это, вероятно, лучший общий совет, но он несколько ресурсоемкий (циклы ЦП для поиска DNS).

Я не знаю ни одного списка IP-адресов для "хороших" поисковых роботов, и если бы он был, он был бы ужасно устаревшим довольно быстро, как вы уже обнаружили.

Одна вещь, которую вы можете сделать, это создать ловушку для ботов. Это просто в теории: вы создаете страницу, которая связана с вашим веб-сайтом, но скрыта от обычных пользователей (например, с помощью трюков CSS), а затем Disallow это внутри robots.txt, Затем вы ждете неделю, так как законные поисковые системы могут кешировать robots.txt в течение этого долгого времени начинайте запрещать все, что попадает на страницу прерываний (например, с fail2ban).

Другие вопросы по тегам