Перезагрузка узлов Oracle VM 2.2 без видимой причины
У меня есть простая четырехузловая среда Oracle VM. Сервер управления, работающий в vmware, сервер nfs для общего хранилища и два сервера Oracle VM, на которых установлен настоящий гипервизор.
По какой-то причине узел, на котором запущена главная служба пула, неожиданно перезагрузится без видимой причины. Я вполне уверен, что это проблема программного обеспечения, возможно, сторожевой таймер кластера. Просто чтобы прояснить, перезагружается сервер / гипервизор vm, а не гостевые машины.
Кто-нибудь видел подобные проблемы, или есть какие-либо предложения относительно того, где я должен начать искать основную причину?
Я не вижу ничего подозрительного в журналах /var/log/ovs*/, в каком-либо другом месте, которое мне стоит посмотреть?
Документация от Oracle оставляет желать лучшего.
3 ответа
Оказывается, что узлы не взаимодействовали должным образом из-за того, что имя узла узла было указано по адресу обратной связи в /etc/hosts. Службы кластера автоматически перезагружают систему для защиты общего хранилища.
Я не уверен, есть ли у вас красивые модные графики, которые поставляются с VM Management или нет. Если вы это сделаете, они обеспечат приличное представление о том, что делают память, процессор и диски. Возможно, может быть какая-то корреляция? Оттуда вы можете начать смотреть сверху и ps, чтобы увидеть, что именно работает и используется, когда сервер отскакивает.
Также вы можете установить серверы в режиме отладки? Они поддерживают это?
Я надеюсь, что это поможет вам начать как минимум.
Вы используете ocfs2? если это так, увеличьте время ожидания ocfs2 в /etc/sysconfig/o2cb.conf