Странные запросы "GET /api/level / " и "GET /play/" в логах

Я установил новый экземпляр Amazon EC2. Через день или два начали появляться странные "GET" запросы от "google bot-like" IP (например, 66.249.76.84, 66.249.74.152) примерно раз в 10 секунд (некоторые примеры):

66.249.74.152 - - [10/Apr/2013:06:05:02 +0000] "GET /play/gp4GbjXBD4B3?sh=04f2fd19ae2dd623e7135d29a1894f03&sh=f172a32c89190e28f9c27123d7c6cf43&sh=04f2fd19ae2dd623e7135d29a1894f03 HTTP/1.1" 404 295 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"    
66.249.76.84 - - [11/Apr/2013:03:51:44 +0000] "GET /api/levels/2ry7ZAh0Y91r HTTP/1.1" 404 295 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

Они проверяют хэши в таких папках

/play/'some_hash_here'
/profile/'some_hash_here'
/level/'some_hash_here'
/api/'some_hash_here'

У меня никогда не было таких папок на этом сайте. Но чтобы сделать что-то с этим, я попытался заблокировать их в robots.txt

User-agent: *
Disallow: 
Crawl-delay: 120
Disallow: /play
Disallow: /profile
Disallow: /level

Но это не помогло, просто не читал robots.txt. Чтобы избавиться от всего беспорядка, который они предоставили в моем файле error_log, я создал правила в файле.htaccess, например:

Redirect 301 /play 'some_other_site'
Redirect 301 /level 'some_other_site'
Redirect 301 /profile 'some_other_site'
Redirect 301 /api 'some_other_site'

Более того, я обнаружил некоторые следы настоящего робота Google, который сканировал мой сайт, и его поведение было очень нормальным: он запрашивал только страницы, на которых были ссылки на страницах моего сайта. Как я могу избавиться от такого сканирования мошенничества?

2 ответа

Решение

Эти IP-адреса являются IP-адресами Google, поэтому вполне вероятно, что они законные хиты GoogleBot.

Я бы не беспокоился о них. Они вряд ли будут попытки взлома. Скорее всего, наиболее вероятная ситуация заключается в том, что IP-адрес вашего сервера ранее был IP-адрес другого веб-сайта, который имел эти URL. Это довольно распространено в Amazon EC2 из-за плавающей природы их IP-адресов.

Хорошо. Я не знаю, что это было, и я не знаю, чего он хотел, но я думаю, что нашел решение на основе пакета fail2ban.

Другие вопросы по тегам