Описание тега robots.txt

Соглашение о запрете индексации вашего сайта веб-сканерами.
3 ответа

Блокировать автономные браузеры

Есть ли способ заблокировать автономные браузеры (такие как Teleport Pro, Webzip и т. Д.), Которые отображаются в журналах как "Mozilla"? Пример: Webzip отображается в журналах моего сайта как "Mozilla/4.0 (совместимо; MSIE 8.0; Win32)" Teleport Pro…
03 янв '13 в 09:40
1 ответ

robots.txt для поддоменов iis7

У меня есть два разных сайта в iis7, оба указывают на одну и ту же папку, у них разные субдомены www.sitename.com foo.sitename.com По сути, это один и тот же веб-сайт, но он работает по-разному в зависимости от субдомена. Я хочу, чтобы www.sitename.…
10 апр '13 в 20:35
2 ответа

Блокировка плохих ботов

Я нашел этот сценарий, и мне было интересно, если это просто перебор, и даже стоит ли его использовать? Мне лучше просто использовать mod_security? # Generated using http://solidshellsecurity.com services # Begin block Bad-Robots from robots.txt Use…
17 апр '13 в 01:52
2 ответа

Как обслуживать robots.txt для всех моих собственных поддоменов, но не для других хостов на Apache?

Мы разрабатываем веб-сайты и размещаем среду QA на том же сервере, что и производственная среда. Я хочу предоставить определенный файл robots.txt для всех сайтов контроля качества, но не для производственных сайтов. У нас много сайтов, поэтому я не …
13 окт '15 в 07:48
1 ответ

Существует ли прямой веб-прокси, который проверяет robots.txt и выполняет его на удаленных доменах?

Существует ли прямой прокси-сервер, который будет искать и подчиняться robots.txt файлы в удаленных интернет-доменах и применять их от имени заказчиков, проходящих через прокси? например, представьте себе веб-сайт www.example.com, на котором есть ro…
03 янв '12 в 17:28
2 ответа

Как создать глобальный файл robots.txt, который добавляется к собственному файлу robots.txt каждого домена в Apache?

Я знаю, что можно создать ОДИН файл robots.txt для всех доменов на сервере Apache *, но я хочу добавить к каждому домену (если он существует) файл robots.txt. Мне нужны некоторые общие правила для всех доменов, но мне нужно разрешить различным домен…
02 ноя '12 в 22:05
1 ответ

Есть ли шанс заблокировать изображения пауков / ботов на выделенных серверах без использования robots.txt или.htaccess?

Мы знаем, что можем запретить некоторым паукам сканировать страницы веб-сайтов, используя robots.txt или.htaccess или, возможно, через файл конфигурации Apache httpd.conf. Но для этого требуется отредактировать большое количество сайтов на некоторых…
2 ответа

Тысячи ошибок robots.txt 404 от ботов, пытающихся сканировать старый мультисайт

В настоящее время мы получаем тысячи и 404 ошибки от ботов, которые ищут файл robots.txt в разных местах на нашем сайте из-за переадресации домена. Наш старый веб-сайт представлял собой лабиринтный мультисайт, работающий на dotnetnuke с несколькими …
1 ответ

apache robots.txt с SSL

У меня есть файл.htaccess с правилом перезаписи, чтобы получить перенаправление каждого HTTP-запроса к HTTPS. Но теперь у меня проблема с тем, что мой robots.txt не распознается какой-либо онлайн-программой проверки. Если я удаляю перенаправление из…
12 июн '14 в 14:35
1 ответ

Как я могу предложить Google сканировать новый файл robots.txt?

Я только что обновил свой файл robots.txt на новом сайте; Google Webmaster Tools сообщает, что он прочитал мой robots.txt за 2 дня до моего последнего обновления. у моего последнего файла robots.txt был "disallow: all" raw. Можно ли как-нибудь посов…
04 авг '14 в 18:30
1 ответ

Перепишите robots.txt на основе хоста с помощью htaccess

Я пытаюсь переписать имя файла на основе домена сервера. Этот код ниже является неправильным / не работает, но иллюстрирует желаемый эффект. <If "req('Host') != '*.mydevserver.com'"> RewriteRule "^/robots\.txt$" "robots-staging.txt" [R] </I…
18 ноя '17 в 00:10
3 ответа

Уважает ли GoogleBot User-agent: *

Я заблокировал страницу в robots.txt под User-agent: * и попытался вручную удалить этот URL из кэша Google в инструментах для веб-мастеров. Google сказал, что он не был заблокирован в моем файле robots.txt, поэтому я заблокировал его специально под …
25 апр '10 в 02:44
1 ответ

Как запретить определенный путь в robots.txt

Я хочу запретить /path но также хочу разрешить /path/another-path в robots.txt, Я уже попробовал: Disallow: /path Или же: Disallow: /path$ Но не работает, я имею в виду это заблокировано /path/another-path тоже. Возможно ли это сделать? Любая помощь…
05 окт '12 в 09:46
2 ответа

Как переписать или перенаправить старый или отсутствующий или недействительный URL на страницу 404

Возможный дубликат: Все, что вы хотели знать о правилах Mod_Rewrite, но боялись спросить? Я недавно обновил сайт, и почти все URL были изменены. Я перенаправил их всех (или я так надеюсь), но возможно, что некоторые из них ускользнули от меня. Есть …
03 сен '12 в 19:16
3 ответа

Должен ли я запретить пауков?

Сценарий шаблона рельсов, на который я смотрел, автоматически добавляет User-Agent: а также Dissalow: в robots.txt тем самым забанить всех пауков с сайта Каковы преимущества запрета пауков и почему вы хотите?
04 окт '10 в 17:47
6 ответов

Блокировка бот yandex.ru

Я хочу заблокировать все запросы от поискового бота yandex.ru. Это очень интенсивный трафик (2 ГБ / день). Сначала я заблокировал один диапазон IP-адресов класса C, но кажется, что этот бот появляется из разных диапазонов IP-адресов. Например: spide…
29 апр '10 в 07:49
1 ответ

Кажется блокировать /my-beautiful-sef-url-123

У меня есть robots.txt, который выглядит так: User-agent: * Disallow: /system/ Disallow: /admin/ Disallow: /index.php Очевидная цель состояла в том, чтобы предотвратить индексацию всех уродливых URL-адресов, поскольку все они начинаются с "/index.ph…
07 июн '10 в 23:40
2 ответа

Файл robots.txt с более строгими правилами для определенных пользовательских агентов

Я немного расплывчат в точном синтаксисе robots.txt, но я пытаюсь добиться: Скажите всем пользовательским агентам не сканировать определенные страницы Скажите определенным агентам пользователя ничего не сканировать (в основном, некоторые страницы с …
08 июн '10 в 06:04
0 ответов

Как заблокировать URL, которые запрашивают robots.txt в lighttpd?

У нас есть выделенный сервер разработки, который запускает только тестовые приложения PHP в публичной сети.У нас настроена сеансовая аутентификация для сайта.Проблема в том, что в журнале доступа robots.txt зарегистрировано 404 файла.Итак, мы хотим …
19 ноя '12 в 14:14
4 ответа

Как создать один файл robots.txt для всех сайтов в экземпляре IIS

Я хочу создать один файл robots.txt и использовать его для всех сайтов в моем экземпляре IIS (в данном случае 7). Я не хочу ничего настраивать на каком-либо отдельном сайте. Как я могу это сделать?
28 июл '10 в 21:06