Google-бот отключается на совершенно нормальном robots.txt, затем на несуществующем robots.txt

У меня есть два доменных имени, указывающих на один и тот же виртуальный сервер. Одним из них, http://ilarikaila.com/, является веб-сайт рабочей брошюры, который я создал для друга. Я использовал другой, http://teemuleisti.com/, чтобы протестировать сайт, прежде чем обнародовать его - в ретроспективе, вероятно, плохая идея.

В течение долгого времени Google-бот был сбит с толку двумя способами, связанными с поиском "ilari kaila", но пока я писал это, вторая проблема, похоже, исчезла (добавлено при редактировании: нет, это не так).

Путаница первая

Результаты поиска "ilari kaila" в Google включают ilarikaila.com, но только на третьей странице результатов, и вместо фрагмента с сайта результат содержит текст "Описание этого результата недоступно из-за robots.txt этого сайта - узнайте больше. "

Содержание robots.txt файл был просто

User-agent: *
Allow: /

что, безусловно, не должно мешать ни одному боту перечислять содержимое сайта. Действительно, когда на bing.com были введены ключевые слова "ilari kaila", сайт появился в качестве первого результата поиска (и это делает stlil), и был показан правильный фрагмент кода.

Пару дней назад я удалил robots.txt вообще (точнее, переименовал его not_robots.txt), но Google по-прежнему показывает тот же результат, ссылаясь на robots.txt. (Это, вероятно, причина того, что сайт появляется только на третьей странице результатов поиска.)

Путаница вторая

Первоначально запросы к teemuleisti.com показывали те же страницы, что и ilarikaila.com, потому что я не написал отдельную server блок для бывшего в моем nginx.conf файл. Я сделал это пару недель назад и написал одну очень простую HTML-страницу для бывшего сайта.

Тем не менее, в результатах поиска Google для "ilari kaila" были показаны ссылки на сайт teemuleisti.com даже через две недели после того, как я это делал, и около часа назад. Однако эта проблема, кажется, была решена (добавлено при редактировании: нет, пока нет), когда я писал этот вопрос, возможно, потому что я просто добавил следующее перенаправление на сервер nginx.conf файл:

server {
    listen              80;
    server_name         teemuleisti.com www.teemuleisti.com;
    ...
    location = /index.html {
        break;
    }
    location ~* ^/(.+)$ {
        rewrite ^ http://teemuleisti.com redirect;
    }
}

перенаправить результаты поиска, такие как http://teemuleisti.com/press (где показан фрагмент контента, который на самом деле находится по http://ilarikaila.com/press), на единственную страницу teemuleisti.com, которая теперь информирует посетителей о проблема с индексацией Google, и есть ссылка на правильный сайт.

Похоже, это помогло Google-боту справиться с этой проблемой - хотя я не вижу, в чем разница, поскольку на teemuleisti.com в течение нескольких недель не было подстраниц - но что за путаница robots.txt?

Добавлено при редактировании: если я использую Google для поиска "ilari kaila composer", вторая страница результатов поиска по-прежнему указывает на teemuleisti.com, поэтому эта проблема также еще не решена.

1 ответ

Нет таких вещей как Allow в robots.txt, таким образом, ваш robots.txt является недействительным. Это сбивает с толку ботов, поскольку это только ожидает Agent а также Disallow описания. Вам следует удалить robots.txt или оставить его пустым, если вы хотите, чтобы весь контекст был проиндексирован.

Дополнительная информация: http://www.robotstxt.org/robotstxt.html

Другие вопросы по тегам