Описание тега web-crawler

Веб-сканер (также известный как веб-паук) просматривает веб-страницы в Интернете, следуя ссылкам URL-адресов, содержащихся на каждой веб-странице. Обычно существует начальное начальное число URL-адресов, с которого сканеру дается инициализировать его сканирование.

Этот процесс называется веб-сканирование или паутинга. Многие сайты, в частности поисковые системы, используют spidering как средство предоставления актуальных данных. Сканеры в основном используются для создания копии всех посещенных страниц для последующей обработки поисковой системой, которая будет индексировать загруженные страницы для обеспечения быстрого поиска. Обходчики также могут использоваться для автоматизации задач обслуживания на веб-сайте, таких как проверка ссылок или проверка кода HTML. Кроме того, сканеры могут использоваться для сбора определенных типов информации с веб-страниц, таких как сбор адресов электронной почты (обычно для отправки спама).

Сканер - это один из типов ботов или программных агентов. Как правило, он начинается со списка посещаемых URL-адресов, называемых семенами. Когда сканер посещает эти URL-адреса, он идентифицирует все гиперссылки на странице и добавляет их в список URL-адресов для посещения, который называется границей сканирования. URL-адреса с границы рекурсивно посещаются в соответствии с набором политик.

Большой объем подразумевает, что сканер может загружать только ограниченное количество веб-страниц в течение определенного времени, поэтому ему необходимо установить приоритетность своих загрузок. Высокий уровень изменений подразумевает, что страницы, возможно, уже были обновлены или даже удалены.

Больше на Википедии