Описание тега robots.txt

Описание тега Вопросы с тегом

Соглашение о запрете индексации вашего сайта веб-сканерами.

3 ответа

Блокировать автономные браузеры

Есть ли способ заблокировать автономные браузеры (такие как Teleport Pro, Webzip и т. Д.), Которые отображаются в журналах как "Mozilla"? Пример: Webzip отображается в журналах моего сайта как "Mozilla/4.0 (совместимо; MSIE 8.0; Win32)" Teleport Pro…

.htaccess robots.txt

03 янв '13 в 09:40

1 ответ

robots.txt для поддоменов iis7

У меня есть два разных сайта в iis7, оба указывают на одну и ту же папку, у них разные субдомены www.sitename.com foo.sitename.com По сути, это один и тот же веб-сайт, но он работает по-разному в зависимости от субдомена. Я хочу, чтобы www.sitename.…

iis-7 robots.txt

10 апр '13 в 20:35

2 ответа

Блокировка плохих ботов

Я нашел этот сценарий, и мне было интересно, если это просто перебор, и даже стоит ли его использовать? Мне лучше просто использовать mod_security? # Generated using http://solidshellsecurity.com services # Begin block Bad-Robots from robots.txt Use…

linux .htaccess mod-security robots.txt

17 апр '13 в 01:52

2 ответа

Как обслуживать robots.txt для всех моих собственных поддоменов, но не для других хостов на Apache?

Мы разрабатываем веб-сайты и размещаем среду QA на том же сервере, что и производственная среда. Я хочу предоставить определенный файл robots.txt для всех сайтов контроля качества, но не для производственных сайтов. У нас много сайтов, поэтому я не …

apache-2.2 apache-2.4 virtualhost robots.txt

13 окт '15 в 07:48

1 ответ

Существует ли прямой веб-прокси, который проверяет robots.txt и выполняет его на удаленных доменах?

Существует ли прямой прокси-сервер, который будет искать и подчиняться robots.txt файлы в удаленных интернет-доменах и применять их от имени заказчиков, проходящих через прокси? например, представьте себе веб-сайт www.example.com, на котором есть ro…

http-proxy web-crawler robots.txt web-proxy

03 янв '12 в 17:28

2 ответа

Как создать глобальный файл robots.txt, который добавляется к собственному файлу robots.txt каждого домена в Apache?

Я знаю, что можно создать ОДИН файл robots.txt для всех доменов на сервере Apache *, но я хочу добавить к каждому домену (если он существует) файл robots.txt. Мне нужны некоторые общие правила для всех доменов, но мне нужно разрешить различным домен…

apache-2.2 web-crawler robots.txt

02 ноя '12 в 22:05

1 ответ

Есть ли шанс заблокировать изображения пауков / ботов на выделенных серверах без использования robots.txt или.htaccess?

Мы знаем, что можем запретить некоторым паукам сканировать страницы веб-сайтов, используя robots.txt или.htaccess или, возможно, через файл конфигурации Apache httpd.conf. Но для этого требуется отредактировать большое количество сайтов на некоторых…

dedicated-server blocking web-crawler robots.txt

30 апр '13 в 01:22

2 ответа

Тысячи ошибок robots.txt 404 от ботов, пытающихся сканировать старый мультисайт

В настоящее время мы получаем тысячи и 404 ошибки от ботов, которые ищут файл robots.txt в разных местах на нашем сайте из-за переадресации домена. Наш старый веб-сайт представлял собой лабиринтный мультисайт, работающий на dotnetnuke с несколькими …

.htaccess http-status-code-404 robots.txt dotnetnuke

12 фев '14 в 11:48

1 ответ

apache robots.txt с SSL

У меня есть файл.htaccess с правилом перезаписи, чтобы получить перенаправление каждого HTTP-запроса к HTTPS. Но теперь у меня проблема с тем, что мой robots.txt не распознается какой-либо онлайн-программой проверки. Если я удаляю перенаправление из…

apache-2.2 .htaccess robots.txt

12 июн '14 в 14:35

1 ответ

Как я могу предложить Google сканировать новый файл robots.txt?

Я только что обновил свой файл robots.txt на новом сайте; Google Webmaster Tools сообщает, что он прочитал мой robots.txt за 2 дня до моего последнего обновления. у моего последнего файла robots.txt был "disallow: all" raw. Можно ли как-нибудь посов…

robots.txt googlebot

04 авг '14 в 18:30

1 ответ

Перепишите robots.txt на основе хоста с помощью htaccess

Я пытаюсь переписать имя файла на основе домена сервера. Этот код ниже является неправильным / не работает, но иллюстрирует желаемый эффект. <If "req('Host') != '*.mydevserver.com'"> RewriteRule "^/robots\.txt$" "robots-staging.txt" [R] </I…

apache-2.4 .htaccess robots.txt

18 ноя '17 в 00:10

3 ответа

Уважает ли GoogleBot User-agent: *

Я заблокировал страницу в robots.txt под User-agent: * и попытался вручную удалить этот URL из кэша Google в инструментах для веб-мастеров. Google сказал, что он не был заблокирован в моем файле robots.txt, поэтому я заблокировал его специально под …

google robots.txt

25 апр '10 в 02:44

1 ответ

Как запретить определенный путь в robots.txt

Я хочу запретить /path но также хочу разрешить /path/another-path в robots.txt, Я уже попробовал: Disallow: /path Или же: Disallow: /path$ Но не работает, я имею в виду это заблокировано /path/another-path тоже. Возможно ли это сделать? Любая помощь…

robots.txt

05 окт '12 в 09:46

2 ответа

Как переписать или перенаправить старый или отсутствующий или недействительный URL на страницу 404

Возможный дубликат: Все, что вы хотели знать о правилах Mod_Rewrite, но боялись спросить? Я недавно обновил сайт, и почти все URL были изменены. Я перенаправил их всех (или я так надеюсь), но возможно, что некоторые из них ускользнули от меня. Есть …

php .htaccess robots.txt

03 сен '12 в 19:16

3 ответа

Должен ли я запретить пауков?

Сценарий шаблона рельсов, на который я смотрел, автоматически добавляет User-Agent: а также Dissalow: в robots.txt тем самым забанить всех пауков с сайта Каковы преимущества запрета пауков и почему вы хотите?

html web-crawler robots.txt

04 окт '10 в 17:47

6 ответов

Блокировка бот yandex.ru

Я хочу заблокировать все запросы от поискового бота yandex.ru. Это очень интенсивный трафик (2 ГБ / день). Сначала я заблокировал один диапазон IP-адресов класса C, но кажется, что этот бот появляется из разных диапазонов IP-адресов. Например: spide…

robots.txt search-engine

29 апр '10 в 07:49

1 ответ

Кажется блокировать /my-beautiful-sef-url-123

У меня есть robots.txt, который выглядит так: User-agent: * Disallow: /system/ Disallow: /admin/ Disallow: /index.php Очевидная цель состояла в том, чтобы предотвратить индексацию всех уродливых URL-адресов, поскольку все они начинаются с "/index.ph…

seo robots.txt

07 июн '10 в 23:40

2 ответа

Файл robots.txt с более строгими правилами для определенных пользовательских агентов

Я немного расплывчат в точном синтаксисе robots.txt, но я пытаюсь добиться: Скажите всем пользовательским агентам не сканировать определенные страницы Скажите определенным агентам пользователя ничего не сканировать (в основном, некоторые страницы с …

robots.txt

08 июн '10 в 06:04

0 ответов

Как заблокировать URL, которые запрашивают robots.txt в lighttpd?

У нас есть выделенный сервер разработки, который запускает только тестовые приложения PHP в публичной сети.У нас настроена сеансовая аутентификация для сайта.Проблема в том, что в журнале доступа robots.txt зарегистрировано 404 файла.Итак, мы хотим …

lighttpd robots.txt

19 ноя '12 в 14:14

4 ответа

Как создать один файл robots.txt для всех сайтов в экземпляре IIS

Я хочу создать один файл robots.txt и использовать его для всех сайтов в моем экземпляре IIS (в данном случае 7). Я не хочу ничего настраивать на каком-либо отдельном сайте. Как я могу это сделать?

iis iis-7 robots.txt

28 июл '10 в 21:06