Как CMAN может перезапустить после сбоя сети

Я пытаюсь настроить кластер высокой готовности с 3 узлами с кардиостимулятором /cman на centos 6.5. STONITH отключен (pcs property set stonith-enabled=false).

Когда я симулирую проблему сети (iptables -A INPUT -s $OTHER_NODES_IP -j DROP) главный ресурс перемещается на другой узел и останавливается на отказавшем.

Когда я снова включаю сеть (iptables -D INPUT -s $OTHER_NODES_IP -j DROP), отказавший узел не может автоматически присоединиться к кластеру.

В журнале у нас есть: corosync[3323]: cman killed by node 3 because we were killed by cman_tool or other application

Как можно перезапустить cman вместо того, чтобы быть убитым?

1 ответ

Решение

Идея в том, что вы хотите, чтобы cman был убит, если он потеряет связь с кластером. Это называется "фехтование". В течение этого времени узел будет дрейфовать от остальной части кластера. Если бы он просто вернулся в производство без проверки, вы могли бы получить довольно серьезное повреждение или неопределенное поведение среди ваших узлов.

Идея здесь в том, что, ограждая свой неисправный узел, вы помогаете обеспечить целостность данных. Как только вы исправите неисправность и убедитесь, что узел обновлен, вы можете просто перезапустить cman.

Другие вопросы по тегам