Что произойдет, если на сайте нет файла robots.txt?
Если robots.txt
Файл отсутствует в корневом каталоге веб-сайта, как это трактуется:
- сайт вообще не индексируется
- Сайт проиндексирован без каких-либо ограничений
По моему мнению, это должно быть вторым. Я спрашиваю в связи с этим вопросом.
6 ответов
Цель robots.txt
Файл предназначен для того, чтобы сканеры не попадали в определенные части вашего сайта. Отсутствие такового должно привести к тому, что весь ваш контент будет проиндексирован.
Подразумевалось, что из первого комментария по этому вопросу Мета было robots.txt
файл существовал, но был недоступен (по какой-либо причине), а не отсутствовал вообще. Это может вызвать у веб-сканеров некоторые проблемы, но это предположение.
У меня нет robots.txt
на моем блоге (самостоятельная установка Wordpress), и это проиндексировано.
Robots.txt является строго добровольным соглашением среди поисковых систем; они могут игнорировать это или реализовывать по своему усмотрению. Тем не менее, за исключением случайного паука, ищущего адреса электронной почты или тому подобное, они почти все уважают это. Его формат и логика очень и очень просты, и по умолчанию используется правило разрешить (поскольку вы можете только запретить). Сайт без robots.txt будет полностью проиндексирован.
robots.txt является полностью необязательным. Если у вас есть такой, совместимые со стандартами сканеры будут уважать его, если у вас его нет, все, что не запрещено в элементах HTML-META ( Википедия), можно сканировать.
У меня не было robots.txt на десятках доменов, которые я зарегистрировал, некоторые еще в 1994 году, и у меня никогда не было проблем с их размещением в google/yahoo и т. Д.
Даже мой личный веб-сайт получает 150-200 пользователей в день от Google и не имеет файла robots.txt.
(Люблю требование трехминутной паузы между ответами на вопросы. Затем я получу капчу робота. Иногда это просто не стоит пытаться быть полезным.)
(Я не смог найти способ добавить комментарий, но) Также я хотел бы добавить, что отсутствие robots.txt также является проблемой в том смысле, что вы не сможете предоставить Sitemap для него. Помните, что файлы Sitemap находятся только в том случае, если они указаны в файле Robots.txt, или через прямую отправку в поисковые системы, но, конечно, последнее означает, что вы должны делать это один за другим, а не просто быстро находить все Это.
Сайт будет проиндексирован без ограничений. пауки будут следовать за тем, что они найдут. Я не думаю, что ты этого хочешь. некоторые пауки, такие как байду, могут быть очень агрессивными в этом. он может даже оценить даже URL-адреса в кодах JavaScript.
вот подробная информация. http://www.robotstxt.org/orig.html
пс. также у вас будет много 404 журналов на вашем веб-сервере. это также недостаток при чтении журналов. И не забудьте поместить файл favicon.ico. это еще один глупый файл, который требуется всем браузерам на каждой странице.