Диагностика случайного сетевого лага

У меня проблемы с диагностикой случайной задержки на кластере LAMP из 6 серверов, обслуживающем сайт MediaWiki. Хотя мы обслуживаем около 100 страниц в секунду, сами серверы работают нормально с загрузкой менее 0,5, без заблокированных процессов, без подкачки страниц, без регистрации ошибок и т. Д.

  • Лаг присутствует на всех серверах и является случайным: одна минута - это хорошо, а вторая - там.
  • Поиск DNS на серверах происходит медленно. Например time nslookup google.com изменяется случайным образом от нескольких миллисекунд до нескольких секунд, а иногда и полностью. Хотя мы используем IP-адреса внутри кластера, это может быть признаком корневой проблемы. У нас нет собственного DNS-сервера.
  • Апач server-status страницы случайно запаздывают или время ожидания. Бенчмаркинг с использованием ab между серверами показывает несколько нагрузок, иногда занимают 3000 мс (почти точно). Бенчмаркинг server-status на самом локальном сервере обычно не возникает никаких проблем (он показал отставание только один раз из нескольких сотен тестов).

Серверы находятся за коммутатором и межсетевым экраном, к которым у меня нет доступа, поэтому я не знаю их настройки или состояния. В то время как у нас нагрузка выше 2 Мбит / с и исходящий трафик 20 Мбит / с, нагрузка не должна вызывать нагрузку на коммутатор или межсетевой экран. Я чувствую, что это коммутатор / брандмауэр или что-то над ними в ISP, например, их DNS, но не может подтвердить это.

Мне нужны некоторые другие тесты или методы диагностики этого отставания, чтобы попытаться сузить основную причину.

2 ответа

Решение

Проблема оказалась в том, что брандмауэр имел жестко установленный лимит в 10 000 подключений. Трудность в отслеживании этого была главным образом из-за отсутствия доступа к брандмауэру и убеждения поставщика услуг в том, что действительно существует проблема.

Диагностика проблем почти всегда требует наличия какой-либо формы мониторинга.

Разверните что-то вроде OpenNMS, InterMapper, Cacti или, если вы отчаянный Nagios, и посмотрите на трафик, нагрузку на систему и т. Д., Когда увидите проблему. Информация, которую предоставляет ваша система мониторинга, вероятно, поможет вам понять, что не так.

Другие вопросы по тегам