Как CMAN может перезапустить после сбоя сети
Я пытаюсь настроить кластер высокой готовности с 3 узлами с кардиостимулятором /cman на centos 6.5.
STONITH отключен (pcs property set stonith-enabled=false
).
Когда я симулирую проблему сети (iptables -A INPUT -s $OTHER_NODES_IP -j DROP
) главный ресурс перемещается на другой узел и останавливается на отказавшем.
Когда я снова включаю сеть (iptables -D INPUT -s $OTHER_NODES_IP -j DROP
), отказавший узел не может автоматически присоединиться к кластеру.
В журнале у нас есть: corosync[3323]: cman killed by node 3 because we were killed by cman_tool or other application
Как можно перезапустить cman вместо того, чтобы быть убитым?
1 ответ
Идея в том, что вы хотите, чтобы cman был убит, если он потеряет связь с кластером. Это называется "фехтование". В течение этого времени узел будет дрейфовать от остальной части кластера. Если бы он просто вернулся в производство без проверки, вы могли бы получить довольно серьезное повреждение или неопределенное поведение среди ваших узлов.
Идея здесь в том, что, ограждая свой неисправный узел, вы помогаете обеспечить целостность данных. Как только вы исправите неисправность и убедитесь, что узел обновлен, вы можете просто перезапустить cman.