Описание тега web-crawler

Веб-сканер (также известный как веб-паук) просматривает веб-страницы в Интернете, следуя ссылкам URL-адресов, содержащихся на каждой веб-странице. Обычно существует начальное начальное число URL-адресов, с которого сканеру дается инициализировать его сканирование.
4 ответа

Как я могу запустить Nutch на ядре Linux?

Я хочу запустить Nutch на ядре Linux, я вошел в систему как пользователь root, я установил все переменные окружения и настройки NUTCH файла. Я создал файл url.txt, который содержит URL для сканирования, когда я пытаюсь запустить Nutch, используя сле…
28 дек '09 в 14:18
3 ответа

Сайт Google APPS - не индексируется

Помогите! Похоже, сканеры Google посещают мой сайт, но он не индексируется, что я делаю не так? Yahoo удалось найти mydomain.appspot.com и успешно проиндексировать (хотя и по адресу apspot, а не по моему домену), поэтому я предполагаю, что мой HTML …
29 июн '10 в 21:59
1 ответ

Обходчик сайта / паук, который бросает результаты в MySQL

Было предложено использовать mysql для поиска по нашему сайту, так как он будет работать на том же сервере, на котором размещен наш веб-сервер (nginx) и наш db (mysql). Так как не все наши страницы созданы из базы данных, было предложено, чтобы у на…
22 фев '10 в 15:14
1 ответ

Журнал Nginx показывает подозрительный доступ к каталогу!!! Как их заблокировать?

В моем журнале Nginx недавно я заметил 100 записей вроде этой, где поиск по каталогу был выполнен с ошибкой, потому что этот каталог не существует на моем веб-сервере. Теперь, как я могу заблокировать их, если они не смогли найти несколько каталогов…
29 июн '15 в 09:23
0 ответов

Более эффективная карта сайта для обработки сканирования Google

Мой сервер, на котором работает apache, зависает от googlebot. У меня есть индекс Sitemap, который указывает на несколько файлов Sitemap с 50000 записями в каждом. Google запрашивает карты сайта так агрессивно (несколько раз в минуту), что мой серве…
14 сен '18 в 21:14
1 ответ

Существуют ли регулярно обновляемые базы данных по ботам, паукам и гусеницам?

Я ищу базу данных, которая регулярно обновляется различных ботов, пауков и сканеров. Я хочу иметь возможность идентифицировать их в файлах журнала из IIS.
08 окт '09 в 15:40
4 ответа

Как оценить ограничение сканирования Google моего блока IP?

У меня есть несколько сайтов в /24 сеть, которую все регулярно сканируют в Google. Обычно это нормально. Однако, когда Google начинает сканировать все сайты одновременно, небольшой набор серверов, поддерживающих этот IP-блок, может сильно пострадать…
02 апр '10 в 22:32
0 ответов

Как заставить Google сканировать мой сайт, используя адрес IPv6, если мое доменное имя имеет адреса IPv4 и IPv6?

Моему доменному имени назначены адреса как IPv4, так и IPv6. Соединение IPv4 с Google не может быть доступно постоянно из-за ограничений сети моего кампуса, но IPv6 доступен постоянно. Google не может получить доступ к моему сайту, когда соединение …
03 мар '15 в 01:14
1 ответ

Как собрать экономную, дешевую и простую энтропию высокого качества на компьютере с Linux?

Если радиоактивного распада нет и хорошая энтропия настоятельно рекомендуется по соображениям безопасности, вы сталкиваетесь с реальной проблемой. HTTPS-соединения потребляют много энтропии. Если у вас есть тысячи из них в час между машинами с низко…
31 мар '19 в 01:44
5 ответов

Поиск всех диапазонов IP-адресов, принадлежащих конкретному провайдеру

У меня проблема с неким человеком, который продолжает агрессивно чистить мой сайт; тратить трафик и ресурсы процессора. Я уже внедрил систему, которая отслеживает журналы доступа к моему веб-серверу, добавляет каждый новый IP-адрес в базу данных, от…
14 июн '10 в 17:01
1 ответ

Как заблокировать веб-сканер от загрузки файла

Можно ли заблокировать загрузку веб-сканером файлов (например, zip-файлов) с моего сервера? Я должен был создать PHP-скрипт, использующий куки-файлы, чтобы отслеживать посетителей, особенно веб-сканеры, чтобы войти / зарегистрироваться после загрузк…
27 июл '13 в 14:35
1 ответ

Реферер в access.log это каталог

Похоже, что ссылка на следующий журнал является папкой. 112.200.208.5 - - [29/Jul/2013:20:43:14 +0800] "GET /sites/default/files/download/argie/pos-code.zip HTTP/1.1" 206 294677 "http://www.mysite.com/sites/default/files/download/argie/" "Mozilla/5.…
29 июл '13 в 13:04
1 ответ

Существует ли прямой веб-прокси, который проверяет robots.txt и выполняет его на удаленных доменах?

Существует ли прямой прокси-сервер, который будет искать и подчиняться robots.txt файлы в удаленных интернет-доменах и применять их от имени заказчиков, проходящих через прокси? например, представьте себе веб-сайт www.example.com, на котором есть ro…
03 янв '12 в 17:28
2 ответа

Как создать глобальный файл robots.txt, который добавляется к собственному файлу robots.txt каждого домена в Apache?

Я знаю, что можно создать ОДИН файл robots.txt для всех доменов на сервере Apache *, но я хочу добавить к каждому домену (если он существует) файл robots.txt. Мне нужны некоторые общие правила для всех доменов, но мне нужно разрешить различным домен…
02 ноя '12 в 22:05
1 ответ

Есть ли шанс заблокировать изображения пауков / ботов на выделенных серверах без использования robots.txt или.htaccess?

Мы знаем, что можем запретить некоторым паукам сканировать страницы веб-сайтов, используя robots.txt или.htaccess или, возможно, через файл конфигурации Apache httpd.conf. Но для этого требуется отредактировать большое количество сайтов на некоторых…
1 ответ

Подозреваемая злоумышленная активность одного из пользователей моего сайта; любой способ узнать наверняка?

В течение примерно 2 часов зарегистрированный пользователь на моем веб-сайте получил доступ к примерно 1600 страницам, что подозрительно похоже на бот. Я обеспокоен тем, что пользователи должны приобрести доступ к сайту, чтобы получить полный доступ…
07 апр '16 в 14:46
2 ответа

Получить все URL сайта

Я хочу создать инструмент, который сканирует веб-сайт по всем URL-адресам, но не по URL-адресам на странице, а по самому сайту, но я не знаю как. Кто-нибудь может дать мне пример, как я могу начать? Пример: www.localhost.dev /upload /login /impress …
11 апр '14 в 12:41
4 ответа

Имеет ли компания право сканировать мой веб-сайт?

Я обнаружил, что McAfee SiteAdvisor сообщил о моем веб-сайте как "возможно, проблемы с безопасностью". Меня мало волнует, что McAfee думает о моем веб-сайте (я могу защитить его сам, и если нет, то McAfee определенно не та компания, за которую я бы …
14 авг '14 в 19:36
5 ответов

Как эти "плохие боты" находят мой закрытый веб-сервер?

Я установил Apache некоторое время назад, и быстрый просмотр моего access.log показывает, что подключаются всевозможные неизвестные IP-адреса, в основном с кодом состояния 403, 404, 400, 408. Я понятия не имею, как они находят мой IP, потому что я и…
04 дек '11 в 04:01
2 ответа

Переключение между несколькими типами аутентификации на одном URL

У меня есть защищенный SSO-сайт, который использует аутентификацию Shibboleth и провайдера идентификации SAML. Мне нужно разрешить сканеру Google Search Appliance индексировать URL-адреса. У меня есть требование изменить HTTP-запрос с SAML на обычну…