Обычные системные сбои на рабочей станции RHEL5
У меня есть рабочая станция RHEL5, которая недавно начала "икать". Примерно каждые тридцать секунд он, по-видимому, полностью останавливает выполнение примерно на 4 секунды. Казалось бы, ничего не работает в этот период. Долгосрочные процессы, кажется, догоняют их вклад, но новые процессы просто не запускаются.
Конкретные примеры:
У меня этот цикл работает в оболочке:
while date; do sleep 0.2 doneВывод просто пропускает пропущенные секунды:
Fri Aug 13 15:20:29 EDT 2010 Fri Aug 13 15:20:29 EDT 2010 Fri Aug 13 15:20:29 EDT 2010 Fri Aug 13 15:20:30 EDT 2010 Fri Aug 13 15:20:30 EDT 2010 Fri Aug 13 15:20:30 EDT 2010 Fri Aug 13 15:20:30 EDT 2010 Fri Aug 13 15:20:34 EDT 2010 Fri Aug 13 15:20:34 EDT 2010 Fri Aug 13 15:20:35 EDT 2010 Fri Aug 13 15:20:35 EDT 2010 Fri Aug 13 15:20:35 EDT 2010При наборе в терминале, либо на локальной консоли, либо на удаленном компьютере через ssh или telnet, echoback делает паузу в течение не отвечающего времени, но перехватывает, когда снова начинает отвечать, очевидно, без потери ввода, просто лаг.
pings остаются без ответа в течение не отвечающего времени, но получают ответ, когда он возвращается:64 bytes from xxx: icmp_seq=1911 ttl=64 time=0.203 ms 64 bytes from xxx: icmp_seq=1912 ttl=64 time=0.199 ms 64 bytes from xxx: icmp_seq=1913 ttl=64 time=3202 ms 64 bytes from xxx: icmp_seq=1914 ttl=64 time=2196 ms 64 bytes from xxx: icmp_seq=1915 ttl=64 time=1197 ms 64 bytes from xxx: icmp_seq=1916 ttl=64 time=195 ms 64 bytes from xxx: icmp_seq=1917 ttl=64 time=0.201 ms 64 bytes from xxx: icmp_seq=1918 ttl=64 time=0.206 msКазалось бы, это означает, что он фактически получает входные данные в течение периода без ответа, поскольку эти пакеты ICMP не передаются повторно.
vmstat 1вывод тоже задерживается, но не догоняет. Как будто эти несколько секунд не произошло. Он также показывает рост ожидающих процессов и снижение количества прерываний и переключений контекста:procs -----------memory---------- ---swap-- -----io---- --system-- -----cpu------ r b swpd free buff cache si so bi bo in cs us sy id wa st 0 0 132 3111220 305540 588012 0 0 0 0 1035 151 1 1 99 0 0 0 0 132 3111096 305540 588012 0 0 0 0 1019 125 0 0 99 0 0 0 0 132 3111220 305540 588012 0 0 0 44 1034 154 0 1 99 0 0 1 0 132 3111096 305540 588012 0 0 0 0 1016 131 0 0 99 0 0 6 0 132 3111096 305540 588012 0 0 0 0 417 82 0 0 100 0 0 0 0 132 3111220 305540 588012 0 0 0 0 1041 155 0 1 99 0 0 0 0 132 3111096 305540 588012 0 0 0 0 1019 123 1 1 99 0 0 0 0 132 3111220 305540 588012 0 0 0 0 1032 142 0 1 99 0 0 0 0 132 3111096 305544 588008 0 0 0 44 1019 134 0 0 99 0 0
Перезагрузка устраняет проблему на некоторое время. Это самое последнее время потребовалось шесть дней, чтобы вернуться. Я не уверен, что это согласуется или нет.
Сначала я подозревал, что проблема может быть связана с модулем видеодрайвера nVidia, но я выключил X Windows и удалил модуль без изменения симптомов.
В сообщениях dmesg или /var/log/messages нет ничего, что казалось бы отдаленно актуальным или каким-либо образом совпадающим с икотой. Похоже, что это не проблема с жестким диском, так как я ожидаю, что iowait будет заметен в течение периода без ответа, если бы это было так, но это не так. Это кажется маловероятным, чтобы быть аппаратной проблемой, поскольку икоты являются довольно регулярными. Я не смог рассчитать их до миллисекунд, но это довольно стабильно 30/4/30/4/30/4.
Есть идеи?
2 ответа
Мои деньги все еще идут на сбой жесткого диска. У меня были похожие вещи на личных рабочих столах Windows. И даже старая машина Sun показала подобные проблемы с заморозкой. Тем не менее, я не буду утверждать, что углубился в проблему достаточно глубоко, чтобы заметить, как секунды падают со спящего снаряда. В любом случае, вы можете посмотреть, сможете ли вы получить какую-либо информацию из вашего RAID-контроллера или иным образом исключить жесткие диски.
У моего сервера тоже есть сбои. Я нашел этот инструмент: http://www.latencytop.org/. К сожалению, мои икоты не происходят регулярно.