Подозреваемая злоумышленная активность одного из пользователей моего сайта; любой способ узнать наверняка?

Question

Подозреваемая злоумышленная активность одного из пользователей моего сайта; любой способ узнать наверняка?

В течение примерно 2 часов зарегистрированный пользователь на моем веб-сайте получил доступ к примерно 1600 страницам, что подозрительно похоже на бот. Я обеспокоен тем, что пользователи должны приобрести доступ к сайту, чтобы получить полный доступ к нашему защищенному контенту; поэтому у меня есть основания полагать, что этот человек просматривал наш контент.

Я знаю, что у меня должны были быть факторы смягчения, чтобы предотвратить этот тип деятельности в первую очередь. Я работаю над этим сейчас.

Основываясь на доступе Apache и журналах ошибок, у меня есть довольно веские косвенные доказательства того, что пользователь использовал своего рода сканер или бот. Мне интересно, есть ли какой-нибудь способ получить прямое доказательство, т.е. основанный на схеме сканирования, могу ли я на 100% сказать, что это сценарий?

Вот выборка из журнала доступа:

###.###.###.### - - [06/Apr/2016:19:32:59 -0500] "GET /article/id/slug-slug-slug-slug HTTP/1.1" 200 15002 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:00 -0500] "GET /article/id/slug-slug-slug-slug HTTP/1.1" 200 15002 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:04 -0500] "GET /article/id/wordmark-icon.png HTTP/1.1" 404 5026 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:05 -0500] "GET /article/id/60559332d74832ae81f6ea69f98e24cc.png HTTP/1.1" 404 5191 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:05 -0500] "GET /article/id/9e8d61bdd8acf3735a02ef90192eefa8.png HTTP/1.1" 404 5189 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:05 -0500] "GET /article/id/b75384c9aa61c22fa768cdfbafaf5351.png HTTP/1.1" 404 5190 "mywebsite.com/article/id/slug-slug-slug-slug" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:06 -0500] "HEAD /article/id2/slug-slug-slug-slug HTTP/1.1" 200 604 "mywebsite.com/article" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:07 -0500] "HEAD /article/id3/slug-slug-slug-slug HTTP/1.1" 200 604 "mywebsite.com/article" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"
###.###.###.### - - [06/Apr/2016:19:33:08 -0500] "GET /article/id3/slug-slug-slug-slug HTTP/1.1" 200 9983 "-" "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0"

...и так далее и тому подобное.

Вот некоторые наблюдения, которые я нашел в приведенном выше:

Примерно за одну миллисекунду было два GET-запроса на один и тот же URL. Я не верю, что это возможно для человека, но я могу ошибаться.
Я не знаком с тем, чтобы видеть запросы HEAD в типичной пользовательской активности. Это обычное явление или свидетельство бота?
После первых двух запросов GET выше, есть дополнительные запросы для получения изображений, найденных в статье. Однако в действительности эти образы находятся в CDN с совершенно другой схемой URL. Этот человек / бот / что угодно использует URI (/article/id/) и добавляет фактическое имя файла изображения, что приводит к ошибке 404. Это происходило в каждом отдельном случае.

Можно ли с уверенностью сказать, что это бот, без тени сомнения? Если так, есть ли какой-нибудь возможный способ узнать конкретный сценарий, или это длинный выстрел? По крайней мере, есть ли симптомы у определенного типа бота, веб-скребка или скрипта?

Спасибо за ваш вклад.

1

apache-2.2 web-crawler scraping

Источник

Nick S. 07 апр '16 в 14:46

1 ответ

Другие вопросы по тегам apache-2.2 web-crawler scraping

JayMcTee 07 апр '16 в 15:39 2016-04-07 15:39 · Answer 1 · 2016-04-07 15:39

Можно ли с уверенностью сказать, что это бот, без тени сомнения?

Нет. Можно открыть несколько вкладок вашего сайта, вызвать сбой браузера, снова открыть окно браузера со всеми вкладками и вызвать отпечаток, похожий на DOS-атаку.

Если так, есть ли какой-нибудь возможный способ узнать конкретный сценарий, или это длинный выстрел?

Я не вижу каких-либо данных, которые бы точно позволили вам отследить такой скрипт.

По крайней мере, есть ли симптомы у определенного типа бота, веб-скребка или скрипта?

Неправильные запросы на изображения делают его подозрительным. Так что да, симптомы автоматизированной деятельности, да.

Вместо того, чтобы пытаться выяснить, что это такое, рассмотрите инструмент мониторинга поведения / репутации, такой как Repsheet. Это позволяет вам сначала регистрировать активность и определять шаблоны, которые вы можете пометить как подозрительные. Далее вы можете решить, что делать с такой подозрительной активностью.

Если вы не можете быть уверены, что это бот и не хотите злить того, кто может быть настоящим пользователем, вы можете просто отобразить вызов, например, reCaptcha, или войти снова. Или вы можете перенаправить этого пользователя на вторичный сервер, чтобы не повредить производительности на доверенных людях на главном сервере. Или вы даже можете отправить их в honeypot и делать все, что хотите, показывать поддельные данные, показывать кэшированные данные и т. Д.