Сервер FreePBX (база ОС) блокируется без ошибок или паники ядра
Немного странной ситуации, с которой я сталкивался несколько дней. У меня есть несколько безголовых серверов CentOS (6.4) со следующей статистикой:
ядро
- CentOS - 6.4 (финал)
- Ядро - 2.6.32-358.14.1.el6.x86_64
- FreePBX - 4.211.64-9
- MoBo - Asus P8H61
- Процессор - Intel Core i3 3.4 ГГц
- Mem - 8 Гб Kingston DDR3 800-1600
- HDD - WD Black 7200 об / мин
- PRI - Digium Device TE130 800a (версия 02)
- PRI - Sangoma B600 (1923: 0025)
Статус SE: отключен (знаю, знаю)
пакеты
libpri-1.4.12-6_centos6.x86_64
- libpri-отлаживать-инфо-1.4.12-6_centos6.x86_64
libpridevel - 1.4.12-6_centos6.x86_64
DAHDI-прошивка-oct6114-128-1.05.01-119_centos5.noarch
DAHDI-линукс-2.7.0-18_centos6.x86_64
- WANPIPE-7.0.4-kernel.2.6.32.358.14.1.el6.dahdi.2.7.0.rel.49.x86_64
- DAHDI-линукс-kmod-DebugInfo-2.7.0-45_centos6.2.6.32_358.14.1.el6.x86_64.x86_64
- DAHDI-линукс-DebugInfo-2.7.0-18_centos6.x86_64
- DAHDI-прошивка-oct6114-032-1.07.01-119_centos5.noarch
- kmod-DAHDI-линукс-2.7.0-45_centos6.2.6.32_358.14.1.el6.x86_64.x86_64
- DAHDI-прошивка-oct6114-256-1.05.01-119_centos5.noarch
- DAHDI-прошивка-te820-1.76-119_centos5.noarch
- DAHDI-прошивка-vpmoct032-1.12.0-119_centos5.noarch
- DAHDI-прошивка-2.5.0.1-119_centos5.noarch
- DAHDI-линукс-разви-2.7.0-18_centos6.x86_64
- DAHDI-прошивка-xorcom-1.0-1.noarch
- DAHDI-инструменты-DebugInfo-2.7.0-37_centos6.x86_64
- DAHDI-прошивка-oct6126-128-01.07.04-119_centos5.noarch
- DAHDI-прошивка-oct6114-064-1.05.01-119_centos5.noarch
- DAHDI-прошивка-hx8-2.06-119_centos5.noarch
- DAHDI-прошивка-tc400m-MR6.12-119_centos5.noarch
- schmooze-dahdi-1.0.0-2.noarch dahdi-tools-2.7.0-37_centos6.x86_64
- DAHDI-инструменты-док-2.7.0-37_centos6.x86_64
Когда эта настройка работает, она прекрасно работает. Десять серверов в разных местах работают под управлением одного и того же программного и аппаратного обеспечения. Однако три из десяти серверов продолжают блокироваться. Под блокировкой я подразумеваю, что сеть полностью не отвечает, и никакие телефонные звонки не могут быть отправлены или получены. Для того, чтобы сервер снова заработал, требуется принудительное отключение / перезагрузка сервера.
/ var / log / messages, dmesg и dmesg,old просто прекращают запись, когда система блокируется, но в журналах нет ошибок, аппаратных ошибок, паники и т. д. /var/log/boot показывает нормальный запуск, только несколько предупреждений о вундеркинде (который не используется). /var/log/mcelog всегда пуст, без строки или текста. /var/log/freepbx.log показывает нормальные строки INFO.
Не существует шаблона для временных рамок или нагрузки серверов, которые связаны с блокировкой. Иногда это будет в течение трех часов, иногда в течение трех дней. Датчики показывают, что температура всегда находится в пределах диапазона, и журналы пороговых значений ЦП не записываются. Я установил kdump и установил параметры ядра для паники при softlockup и зависшей задаче, а также по умолчанию. kdump.conf был изменен на перезагрузку по умолчанию. Когда я вручную запускаю SYSRQ C (паника ядра), запускается kdump, который выдает файл сбоя (хотя по какой-то причине он не перезагружается после этого). Использование SAR для процессора никогда не превышает 5%, память - не более 10%. HDD rd_sec достигает пика в 5,86, wr_sec достигает пика в 120. Максимальная загрузка составляет в среднем около 7%.
Я запустил memtester и делаю упор на систему, ПЫТАЯСЬ, чтобы она рухнула, но безрезультатно (система должна оставаться включенной, если это вообще возможно). Memtester, работающий с 512M и 50 итерациями, до 2048M и 100 итерациями, все протестировал "хорошо" без проблем.
Я не вижу никакой причины для блокировки этих блоков, или почему kdump не запускается (если это паника ядра). Я исчерпал свои навыки поиска журналов в попытках найти причину такого поведения.
Кто-нибудь еще имеет представление о том, где я мог бы посмотреть, или что я мог бы сделать, чтобы определить проблему здесь, пожалуйста?