Диагностика случайного сетевого лага
У меня проблемы с диагностикой случайной задержки на кластере LAMP из 6 серверов, обслуживающем сайт MediaWiki. Хотя мы обслуживаем около 100 страниц в секунду, сами серверы работают нормально с загрузкой менее 0,5, без заблокированных процессов, без подкачки страниц, без регистрации ошибок и т. Д.
- Лаг присутствует на всех серверах и является случайным: одна минута - это хорошо, а вторая - там.
- Поиск DNS на серверах происходит медленно. Например
time nslookup google.com
изменяется случайным образом от нескольких миллисекунд до нескольких секунд, а иногда и полностью. Хотя мы используем IP-адреса внутри кластера, это может быть признаком корневой проблемы. У нас нет собственного DNS-сервера. - Апач
server-status
страницы случайно запаздывают или время ожидания. Бенчмаркинг с использованиемab
между серверами показывает несколько нагрузок, иногда занимают 3000 мс (почти точно). Бенчмаркингserver-status
на самом локальном сервере обычно не возникает никаких проблем (он показал отставание только один раз из нескольких сотен тестов).
Серверы находятся за коммутатором и межсетевым экраном, к которым у меня нет доступа, поэтому я не знаю их настройки или состояния. В то время как у нас нагрузка выше 2 Мбит / с и исходящий трафик 20 Мбит / с, нагрузка не должна вызывать нагрузку на коммутатор или межсетевой экран. Я чувствую, что это коммутатор / брандмауэр или что-то над ними в ISP, например, их DNS, но не может подтвердить это.
Мне нужны некоторые другие тесты или методы диагностики этого отставания, чтобы попытаться сузить основную причину.
2 ответа
Проблема оказалась в том, что брандмауэр имел жестко установленный лимит в 10 000 подключений. Трудность в отслеживании этого была главным образом из-за отсутствия доступа к брандмауэру и убеждения поставщика услуг в том, что действительно существует проблема.
Диагностика проблем почти всегда требует наличия какой-либо формы мониторинга.
Разверните что-то вроде OpenNMS, InterMapper, Cacti или, если вы отчаянный Nagios, и посмотрите на трафик, нагрузку на систему и т. Д., Когда увидите проблему. Информация, которую предоставляет ваша система мониторинга, вероятно, поможет вам понять, что не так.