Веб-мастер случайным образом сообщает о значительном увеличении 404-х (по-видимому, из старых файлов Sitemap)

Ну, я в тупике. Несколько месяцев назад мы запустили совершенно новый веб-сайт, заменив устаревшую систему, которая была довольно грязной. Часть беспорядка была много, много страниц, созданных, которые действительно не должны были там быть или просканированы Google. Было много дубликатов и данных оболочки, что привело к тому, что Google сканировал и индексировал дополнительные URL-адреса. С переходом на сайт, мы, конечно, взломали некоторые из этих URL, но это, похоже, не слишком беспокоило. Я заблокировал те, которые, как я знал, должны быть заблокированы в robots.txt, 301 перенаправил как можно больше дублирующих данных (это все еще продолжается) и просто возвратил 404 для всех остальных, которых никогда не должно было быть.

Последние 3 месяца я следил за отчетами Google за 404-е годы в Webmaster, и хотя у нас было несколько тысяч из-за постепенного удаления оболочки и дубликатов данных, я не был слишком обеспокоен. Я генерирую обновленные карты сайта для Google несколько раз в неделю с любыми обновленными URL-адресами. Затем, около недели назад, веб-мастер начал сообщать о значительном увеличении 404-х, где-то около 30000 новых 404-х в день (что не позволяло мне идти в ногу). Мои обновленные карты сайта даже не содержат 30000 URL-адресов. 404 действительно предназначены для неправильных URL-адресов и для URL-адресов, которые не существовали в течение нескольких месяцев и не присутствовали в карте сайта так долго. Это похоже на то, что Google решил использовать карту сайта в случайном порядке много месяцев назад, поскольку у меня нет никакой другой идеи, почему он внезапно сканирует URL-адрес для данных, которые не существовали в течение многих месяцев и определенно нигде не связаны (хотя веб-мастер утверждает, что это связано в карте сайта.... что это не так).

У кого-нибудь есть объяснение этому? Этим утром я даже получил автоматическое сообщение от Инструментов для веб-мастеров, в котором сообщалось, что с моего сайта он значительно увеличился за 404 секунды. Я не совсем уверен, насколько я должен быть обеспокоен этим...

1 ответ

Это все 404 ошибки от Google Bot или они настоящие пользователи? Если первый вариант, вы можете быть правы в том, что они использовали старую карту сайта или повторно сканируют старые URL-адреса, чтобы убедиться, что они действительно недействительны. Кто знает, как работает бот, но в целом он поступает правильно - ваши 404 страницы не появятся в результатах поиска, так кого это волнует?

Если они настоящие пользователи, вы должны посмотреть, откуда они пришли, используя заголовок реферера. Надеюсь, вы сможете найти источник проблемы. Заголовок реферера иногда пуст, но для такого большого примера я бы ожидал, что будет доступно довольно много данных.

Другие вопросы по тегам