После обновления до Ubuntu 15.10 с 15.04 веб-серверы EC2 терпят крах
У меня есть несколько машин Ubuntu на EC2, работающих в производстве, около 30 были обновлены с 15.04 до 15.10. Для большинства машин обновление прошло без нареканий и проблем не возникло.
Тем не менее, 10 моих веб-серверов перестали работать сразу после обновления 15.10. Что касается того, что именно определяет "сбой", проверки состояния экземпляра не пройдены, и я больше не могу подключиться к машине по SSH. Фоновые демоны, работающие в системе, перестают отвечать, и в журналы ничего не записывается. Самые последние записи журнала, которые я вижу на одной машинной выставке:
/var/log/syslog:Dec 18 00:28:58 xxx-web-4a dhclient: DHCPREQUEST of 10.xxx.xxx.104 on eth0 to 10.xxx.xxx.1 port 67 (xid=0x616a091d)
/var/log/syslog:Dec 18 00:28:58 xxx-web-4a dhclient: DHCPACK of 10.xxx.xxx.104 from 10.xxx.xxx.1
/var/log/syslog:Dec 18 00:28:58 xxx-web-4a dhclient: bound to 10.xxx.xxx.104 -- renewal in 1640 seconds.
Но мои проверки статуса экземпляра не начинали терпеть неудачу, пока 00:32:00
(когда первая из нескольких проверок не дала ответа). В журналах абсолютно ничего нет в течение периода, следующего за записями выше.
Теперь, как я уже сказал, мои ~20 других экземпляров 15.10 ни разу не выходили из строя в течение 6 недель с момента их обновления, только этот набор веб-серверов, и все они выходят из строя. Итак, что же такого в этих машинах? Только две вещи, правда.
- Это мои экземпляры с самым высоким трафиком 15.10, отправляющие и получающие в среднем около 5-10 Мбит / с, достигая иногда чуть более 30-40.
- Они мои единственные экземпляры типа
c4.xlarge
или жеm4.xlarge
, Изначально все они былиc4.xlarge
, но я заменил ихm4.xlarge
попытаться изолировать проблему. Похоже, реже сm4.xlarge
, но я все еще видел около 3 или 4 сбоев в день между 10 веб-серверами. Как правило, я вижу, как каждый экземпляр падает по крайней мере один раз в день, в случайное время.
Эти экземпляры работают под управлением Apache 2.4.x, mod_php 5.6.11 и memcached 1.4.24, но у меня есть другие машины, получающие меньше трафика на меньшем типе экземпляра, которые абсолютно стабильны.
Не уверен, если связан, но все эти машины видят периодические ifquery
segfaults, например:
/var/log/syslog:Dec 17 14:02:05 xxx-web-3a kernel: [ 22.592488] ifquery[476]: segfault at 1 ip 0000000000403187 sp 00007ffde8596050 error 4 in ifup[400000+d000]
/var/log/syslog:Dec 17 14:02:05 xxx-web-3a kernel: [ 23.593774] ifquery[510]: segfault at 1 ip 0000000000403187 sp 00007ffde6087b90 error 4 in ifup[400000+d000]
/var/log/syslog:Dec 17 14:02:05 xxx-web-3a kernel: [ 24.594994] ifquery[531]: segfault at 1 ip 0000000000403187 sp 00007ffe70747a50 error 4 in ifup[400000+d000]
/var/log/syslog:Dec 17 14:04:12 xxx-web-3a kernel: [ 2.623024] ifquery[367]: segfault at 1 ip 0000000000403187 sp 00007ffefc980f60 error 4 in ifup[400000+d000]
Одна система, до c4.xlarge
-> m4.xlarge
миграция, увидел General Protection Fault
Записался один раз в системный журнал консоли, но я больше не видел этого.
Я не вижу этих segfaults на моих других машинах 15.10, которые не выходят из строя.
Все это экземпляры Enhanced Networking с Intel 82599 10G Ethernet, которые, как я немного подозреваю, могут способствовать этой проблеме, но у меня есть другие машины (с гораздо меньшим трафиком) с тем же адаптером, работающим 15.10, без сбоев.
Кто-нибудь видит подобные проблемы, или есть какие-либо идеи для отладки или исправления этого? Спасибо!
редактировать
Глядя на консольный журнал, одна из моих часто сбоев системы сообщала о сбое общей защиты прямо перед перезагрузкой:
[171009.844097] general protection fault: 0000 [#1] [ 0.000000] Initializing cgroup subsys cpuset