Несоответствие между аналитикой на стороне клиента и журналами Apache

Мне довелось сравнить отчет Google Analytics с журналами доступа Apache, и он показывает поразительные 250% падений.

У нас есть установка WordPress, размещенная на AWS с двумя веб-серверами за ELB и NFS-сервером, RDS и эластичным кешем.

То, как я провел анализ, выглядит следующим образом:

  1. На всех страницах поместите простой JavaScript, который пингует мой сервер на PageReady, т.е. событие OnDomContentLoaded, и я записываю IP-адрес URL страницы. Поскольку это самый простой код JavaScript, я предполагаю, что он должен работать в большинстве браузеров, и результаты очень близки к тому, который генерирует google-analytics.
  2. Я проверяю законные запросы в журналах доступа (исключаю запросы без пользовательских агентов + без URL-адресов реферера и т. Д.) И проверяю только те запросы, которые генерируют 200,206,301,302 кодов ответов.

Когда я сравниваю пинги сервера, сгенерированные клиентом (пользовательский JavaScript упоминается как 1), и журналы доступа apache, кажется, что спады близки к 250%.

Таким образом, это означает, что клиенты в этих пропущенных IP-адресах не выполняли JavaScript, но загадочная часть заключается в том, что сервер отправляет код состояния 200. Поэтому я пришел к выводу, что сервер отправляет пустой ответ для большинства. (Я учел несколько пользователей, которые отключали JavaScript, некоторые ошибки и т. Д.), Но я не могу проверить предположение. (Если это вообще так).

  • mod_dumpio не позволяет мне сопоставить тело ответа с IP-адресом клиента.

  • Журнал аудита не поддерживает ведение журнала тела ответа.

Учитывая все это, кто-нибудь может указать мне правильное направление?

Разъяснение:

Поскольку у меня нет репутации, чтобы добавлять комментарии, я хотел бы добавить несколько пунктов здесь.

Я искал только запросы документов, т.е. исключая все CSS, JS и файлы изображений, и я отфильтровал ботов Google и других подозрительных сканирований. С учетом всего этого наблюдается явное снижение до 250%.

2 ответа

проверять только те запросы, которые генерируют 200,206,301,302 кодов ответов.

Это будет пересчет. Количество, которое он превышает, зависит от того, сколько 301 и 302 вы обслуживаете. Браузеры, которые получают 301 или 302, будут перенаправлять без отправки вашего пинга JavaScript, и, вероятно, позже сгенерируют 200, что приведет к двойному счету.

Фильтрация запросов от ботов и запросов на css, javascript и изображения может быть подвержена ошибкам. Вместо этого я бы порекомендовал выбрать одну страницу на вашем сайте, где вы знаете, что аналитика JS работает (например, домашнюю страницу), и считать только запросы для этого. Кроме того, выберите из вашего журнала один общий пользовательский агент, который обычно представляет собой настоящий браузер, и учитывайте только запросы для этого. Если числа приблизятся к совпадению, вы можете немного расширить свой охват.

Также возможно, что ваш JS не работает должным образом в каждом браузере. Попробуйте настроить тестовый экземпляр вашего сайта, а затем использовать сервис, такой как https://www.browserstack.com/ чтобы загрузить его в несколько браузеров. Сгруппируйте журналы по пользовательскому агенту. Любой пользовательский агент, который делает основной запрос, но не отправляет пинг, вероятно, имеет проблемы с выполнением вашего JS. Запустите копию этого пользовательского агента и протестируйте свой JS.

Ваши журналы apache сообщают о многих вещах, которые аналитика не считает. Они включают:

  • CSS, Javascript, изображения и другой контент, содержащийся на ваших страницах контента. Они должны быть кэшированы, поэтому постоянным посетителям не нужно извлекать их на последующих страницах. Тем не менее, вы должны увидеть HEAD запросы, если они начинают новый сеанс браузера.
  • Контент сканируется ботами, которые индексируют ваш сайт. Ищу +http:// в поле агента пользователя, хотя не все пауки следуют этому стандарту.
  • Некоторые пользователи будут использовать инструменты, которые отключают скрипты, поэтому этот законный трафик будет отсутствовать в аналитических отчетах.
Другие вопросы по тегам