IP-адрес пауков и "официальных" веб-ботов

Question

IP-адрес пауков и "официальных" веб-ботов

Есть ли официальный API для http://iplists.com/, откуда я могу получить список пауков?

Мое намерение состоит в том, чтобы внести эти IP-адреса в белый список для очистки сайта.

3

web-hosting scraping

Источник

Quintin Par 14 мар '12 в 03:00

3 ответа

Другие вопросы по тегам web-hosting scraping

voretaq7 14 мар '12 в 03:06 2012-03-14 03:06 · Answer 1 · 2012-03-14 03:06

Не то, чтобы я знал, и это может измениться в любое время по усмотрению операторов ботов.

Google предлагает некоторые конкретные рекомендации и объяснения по этому поводу:

Проблема в том, что если / когда диапазоны IP-адресов наших сканеров изменятся, не все будут знать, что проверять. На самом деле, команда по сканированию перенесла IP-адреса Google-ботов пару лет назад, и вебмастерам было очень сложно предупреждать, кто жестко задал диапазон IP-адресов.

и они предлагают использовать проверку DNS (вперед и назад) для проверки:

Говоря веб-мастерам использовать DNS для проверки в каждом конкретном случае, кажется, лучший способ пойти. Я думаю, что рекомендуемый метод - сделать обратный поиск DNS, убедиться, что имя находится в домене googlebot.com, а затем выполнить соответствующий прямой поиск DNS->IP, используя это имя googlebot.com; например:
$ host 66.249.66.1
1.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-1.googlebot.com.
$ host crawl-66-249-66-1.googlebot.com
crawl-66-249-66-1.googlebot.com has address 66.249.66.1
Я не думаю, что достаточно просто выполнить обратный поиск DNS, потому что спуфер может настроить обратный DNS, чтобы он указывал на crawl-abcd.googlebot.com.

Это, вероятно, лучший общий совет, но он несколько ресурсоемкий (циклы ЦП для поиска DNS).

Michael Hampton 29 авг '12 в 08:14 2012-08-29 08:14 · Answer 2 · 2012-08-29 08:14

Я не знаю ни одного списка IP-адресов для "хороших" поисковых роботов, и если бы он был, он был бы ужасно устаревшим довольно быстро, как вы уже обнаружили.

Одна вещь, которую вы можете сделать, это создать ловушку для ботов. Это просто в теории: вы создаете страницу, которая связана с вашим веб-сайтом, но скрыта от обычных пользователей (например, с помощью трюков CSS), а затем Disallow это внутри robots.txt, Затем вы ждете неделю, так как законные поисковые системы могут кешировать robots.txt в течение этого долгого времени начинайте запрещать все, что попадает на страницу прерываний (например, с fail2ban).

Khanh Van 30 авг '22 в 07:56 2022-08-30 07:56 · Answer 3 · 2022-08-30 07:56

Бот Google: https://developers.google.com/search/apis/ipranges/googlebot.json .

Бот Bing: https://www.bing.com/toolbox/bingbot.json

Facebook https://developers.facebook.com/docs/sharing/webmasters/crawler/

1

Источник

Khanh Van 30 авг '22 в 07:56