Бот поисковой системы - Большое количество хитов

Я начал отслеживать строки агента пользователя на веб-сайте в начале каждого сеанса. Глядя на данные за этот месяц, я вижу поискового бота, который постоянно появляется.

Mozilla / 5.0 (совместимо; Baiduspider / 2.0; + http://www.baidu.com/search/spider.html)

С 01.09.2011 по 13.09.2011 я зарегистрировал 2090 обращений от этого агента пользователя. Из других поисковых систем я отслеживаю гораздо меньшее количество хитов...

Mozilla / 5.0 (совместимо; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp) - 353

Mozilla / 5.0 (совместимо; Googlebot / 2.1; + http://www.google.com/bot.html) - 175

Mozilla / 5.0 (совместимо; bingbot / 2.0; + http://www.bing.com/bingbot.htm) - 110

www.baidu.com кажется китайской версией Google. Есть ли способ убить их бота? Я не возражаю против того, чтобы они указывали на нас... на самом деле это, наверное, хорошая вещь, поскольку у нас есть большое азиатское население, использующее сайт, но они, кажется, делают это намного больше.

2 ответа

Решение

Вы хотите задушить бота, но, похоже, вы не знаете, ПОЧЕМУ вы хотите это сделать.
Вы испытываете влияние на производительность? Трафик подталкивает вас к пропускной способности или порогу передачи?

Задушить бот "просто потому, что" - пустая трата усилий. Если вам не больно, я предлагаю вам оставить его в покое.

Если это вызывает проблемы, вы можете предпринять шаги, используя sitemaps.xml, чтобы ограничить частоту сканирования бота, или директивы robots.txt, чтобы ограничить скорость сканирования. Обратите внимание, что оба они могут быть проигнорированы, что даст вам возможность заблокировать пользовательский агент, используя (например) правило Apache mod_rewrite - это также приведет к тому, что вы не будете проиндексированы...

Я написал этот ответ на аналогичный вопрос вчера: блокировка строкой user-agent в httpd.conf не эффективна

Который в основном говорит это:

Если вы не хотите, чтобы определенные пользовательские агенты (роботы) индексировали вас, выполните [эти] шаги. Если вы не хотите, чтобы ЛЮБЫЕ роботы индексировали вас, выполните [те2] шаги.

Он использует файл httpd.conf или, если проще, файл.htaccess и устанавливает некоторые правила перезаписи. Надеюсь, это полезно для вас. Что касается ограничения количества раз, когда они могут проиндексировать вас, вам нужно (например, Google) доказать, что вы являетесь владельцем веб-сайта, а затем перейти к их "инструментам для веб-мастеров" и выбрать очень медленную скорость индексации. Но вот мой вклад:

<2-cents>
Unless the bots slow your server down, let it be. They don't hurt unless they are "bad bots" and access sensitive data.
</2-cents>

Удачи.

Другие вопросы по тегам