Файл robots.txt с более строгими правилами для определенных пользовательских агентов
Я немного расплывчат в точном синтаксисе robots.txt, но я пытаюсь добиться:
- Скажите всем пользовательским агентам не сканировать определенные страницы
- Скажите определенным агентам пользователя ничего не сканировать
(в основном, некоторые страницы с огромным количеством данных никогда не должны сканироваться; а некоторые ненасытные, но бесполезные поисковые системы, например, Cuil, никогда не должны сканировать что-либо)
Если я сделаю что-то вроде этого:
User-agent: *
Disallow: /path/page1.aspx
Disallow: /path/page2.aspx
Disallow: /path/page3.aspx
User-agent: twiceler
Disallow: /
... будет проходить, как и ожидалось, со всеми пользовательскими агентами, соответствующими первому правилу и пропускающими page1, page2 и page3; и вдвое больше, сопоставляя второе правило и пропуская все?
2 ответа
Хм, зависит от сканера и от того, пойдет ли он на первый матч. IE doubleler может сначала увидеть подстановочный знак и больше не проверять, поэтому не будет видеть Disallow: /