Есть ли какое-либо приложение / брандмауэр для обнаружения скребков контента?
Мы отмечаем, что значительный объем веб-трафика приходится на скребки контента (определяемые по схеме сканирования). Они бесполезны для нас, но потребляют много наших ресурсов (пропускная способность, процессор). Есть ли какое-либо приложение / брандмауэр для обнаружения скребков контента и их блокировки?
Исключая поисковые роботы, они не бесполезны.
Примечание: я предпочитаю использовать существующие решения. Он считает, что это общая проблема, и должно быть существующее решение.
1 ответ
Лучший способ сделать это - заблокировать трафик с помощью netfilter/iptables, поскольку это существенно более эффективно, чем блокировка через apache2 / php. Проблема здесь в том, что вам необходимо знать ip / hostname скребков содержимого.
Возможным расширением может быть попытка обнаружить скребки контента на основе их поведения (-> статистические методы! - например, запросы в минуту) или, например, поиск пропущенного пользовательского агента или другого материала, который будет иметь обычный пользовательский браузер, и затем запретить ему доступ. Конечно, вы также можете добавить IP / имя хоста через php (или любую среду, которую вы используете) в iptables, чтобы он был заблокирован. Но обычно для этого требуется разрешение root, и не рекомендуется давать root права для вашего apache2.