Получить все URL сайта

Я хочу создать инструмент, который сканирует веб-сайт по всем URL-адресам, но не по URL-адресам на странице, а по самому сайту, но я не знаю как. Кто-нибудь может дать мне пример, как я могу начать?

Пример: www.localhost.dev

     /upload
     /login
     /impress

Не каждая страница должна быть связана с другой страницей этого домена. Сканирование HTML, только было бы бесполезно. Или другой пример, я хочу создать sitemap.xml.

Спасибо

2 ответа

Что вы действительно пытаетесь достичь?

Вы просто не сможете сделать это через HTTP. Учитывая отсутствие уязвимостей на HTTP-сервере, вы получите то, что публикует поставщик контента, если вы уже не знаете прямых путей. Единственным вариантом здесь является сканер контента.

Учитывая этот факт, вы можете индексировать сайт на уровне файловой системы. Вам придется проделать большую работу по анализу файлов, так как, скорее всего, будет существенное количество файлов, которые не преобразуются в URL на сервере.

Насколько я знаю, это невозможно. Иногда администраторы включают индексы каталогов, но любой каталог, содержащий страницу index.html, будет просто отображать HTML-страницу вместо индекса каталога.

Другие вопросы по тегам