Сервер перестает отвечать на запросы
Наша база данных-сервер иногда перестает отвечать на запросы. Он запускает полностью обновленную Ubuntu 14.04 LTS. Известные не ванильные программы, работающие на нем, это Nimbus, TSM и Oracle.
Примерно один раз в день он перестает отвечать на запросы в ночное время, когда выполняется ряд задач по обслуживанию, таких как резервное копирование.
После того, как он перестает отвечать, кажется, что он остается таким всегда. Я не могу подключиться к нему по SSH, и он не принимает никаких подключений к базе данных.
Странно то, что сервер отвечает на пинг. Если я использую telnet для открытия порта 22(SSH) или порта 1521(Oracle), я получаю ответ от сервера. Порт 22 даже говорит что-то вроде "Это OpenSSH". Но на самом деле использование клиента ssh или открытие соединения с базой данных просто зависает.
Я искал в лог-файлах и ничего не нашел (dmesg, syslog, auth.log и т. Д.). Также кажется, что в журнальных файлах подозрительно мало активности в течение безответного периода. После перезапуска сервера он снова работает.
Моя немедленная реакция состояла в том, чтобы запустить apt-get update и apt-get dist-upgrade и следить за достигнутым максимальным пределом дескриптора файла. Тем не менее, жесткий предел для Oracle далек от максимальной файловой системы, поэтому в таком случае это кажется странным. У кого-нибудь еще есть идеи, что может вызвать это?
РЕДАКТИРОВАТЬ: забыл упомянуть, что процессор, память и дисковое пространство было далеко от достижения 100%. (Они уже отслеживались, и после того, как это произошло, я также начал отслеживать дескрипторы открытых файлов, но это еще не произошло). Я также могу добавить, что я не ожидаю, что кто-то назовет точную проблему, но любые идеи для дополнительных вещей, которые нужно отслеживать, будут оценены.
1 ответ
Все переменные выглядели вполне нормально. Однако я написал cronjob для вывода даты / времени и файловых дескрипторов каждую минуту и обнаружил, что файловые дескрипторы находятся в пределах нормальных значений. Однако в 3 часа ночи серверные часы неожиданно вернулись на 2 часа назад (мне потребовалось некоторое время, чтобы заметить это из файла журнала), а затем они погибли без каких-либо ошибок в журналах.
Это оказалось проблемой на уровне хостинга / WMWare (это не моя проблема). Среди прочего, у хоста WMWare было время, которое было полностью выключено. После того, как инфраструктурная компания исправила свою платформу WMWare, она снова заработала нормально.