Нечетные строки запроса в запросах Googlebot

Индексирующий бот Google (правка: да, это Google, IP разрешает), кажется, добавляет произвольные строки запроса на нашу домашнюю страницу.

xx.xxx.xx.xxx - - [30/Jun/2009:10:14:37 -0400] "GET /?key=61680 HTTP/1.1" 200 3334 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"
xx.xxx.xx.xxx - - [30/Jun/2009:10:16:58 -0400] "GET /?term=byron HTTP/1.1" 200 3184 "-" "DoCoMo/2.0 N905i(c100;TB;W24H16) (compatible; Googlebot-Mobile/2.1; +http://www.google.com/bot.html)"

Есть идеи, для чего они предназначены?

3 ответа

Решение

Похоже, что Googlebot может легко исследовать ваш сайт в поисках возможных проблем с дублированием контента. Или посмотреть, правильно ли обрабатывает ваш сайт несуществующие файлы (возвращая заголовок ответа 404) и / или фиктивные строки запроса.

Это также может быть тестирование, чтобы увидеть, можете ли вы быть какой-то фермой ссылок, если фиктивные запросы дают какой-то другой результат.

Также возможно, что кто-то связался с вашим сайтом с помощью этих параметров строки запроса, и робот Google просто возвращается к вам, чтобы узнать, о чем идет речь. Если это так, попробуйте выяснить, кто ссылается на вас таким образом, и посмотрите, не сможете ли вы заставить их исправить свои ссылки.

Они найдены вместе с другими записями Googlebot? В противном случае это может быть Googlebot проверяет ссылки с другого сайта на ваш, чтобы проверить соединение с их алгоритмами. Это означает, что другой веб-сайт имеет ссылки на ваш веб-сайт с этими URL-адресами. Я не знаю, могут ли спам или домены ссылок что-то делать с этими URL-адресами или нет.

Поскольку я не обязательно понимаю все, что делает робот Google, я могу ошибаться, конечно.

Последние несколько дней робот Googlebot делал то же самое с одним из наших сайтов. Кажется, он вставляет значение строки запроса, соответствующее ключу, который мы используем, но ожидает целое число, когда робот Google предоставляет строку. (например, параметр должен быть что-то вроде gb=22, но Googlebot ищет gb ​​=lkcvvzxxz)

Что еще хуже, Googlebot индексирует эти плохие URL в Google.

Я хотел бы видеть ответ на этот вопрос. Я знаю, что это должен был быть комментарий, но у меня пока нет смысла делать это на severfault...

Другие вопросы по тегам