Получить все URL сайта

Question

Получить все URL сайта

Я хочу создать инструмент, который сканирует веб-сайт по всем URL-адресам, но не по URL-адресам на странице, а по самому сайту, но я не знаю как. Кто-нибудь может дать мне пример, как я могу начать?

Пример: www.localhost.dev
     /upload
     /login
     /impress

Не каждая страница должна быть связана с другой страницей этого домена. Сканирование HTML, только было бы бесполезно. Или другой пример, я хочу создать sitemap.xml.

Спасибо

-8

web-crawler

Источник

chunk0r 11 апр '14 в 12:41

2 ответа

Другие вопросы по тегам web-crawler

squillman 11 апр '14 в 12:55 2014-04-11 12:55 · Answer 1 · 2014-04-11 12:55

Что вы действительно пытаетесь достичь?

Вы просто не сможете сделать это через HTTP. Учитывая отсутствие уязвимостей на HTTP-сервере, вы получите то, что публикует поставщик контента, если вы уже не знаете прямых путей. Единственным вариантом здесь является сканер контента.

Учитывая этот факт, вы можете индексировать сайт на уровне файловой системы. Вам придется проделать большую работу по анализу файлов, так как, скорее всего, будет существенное количество файлов, которые не преобразуются в URL на сервере.

mtak 11 апр '14 в 12:44 2014-04-11 12:44 · Answer 2 · 2014-04-11 12:44

Насколько я знаю, это невозможно. Иногда администраторы включают индексы каталогов, но любой каталог, содержащий страницу index.html, будет просто отображать HTML-страницу вместо индекса каталога.

2

Источник

mtak 11 апр '14 в 12:44