Сердцебиение не требует ресурсов

Я пытаюсь создать динамический кластер машин, которые должны взаимодействовать с главным узлом (для отчетов, обновлений и других задач, которые должны выполняться главным узлом).

Для удобства я подумал об использовании проекта heartbeat http://linux-ha.org/wiki/Heartbeat. Hearbeat предоставляет хороший механизм восстановления после сбоев и восстановления, который я хочу использовать. Я не планирую использовать ldirectord или какой-либо виртуальный IP. Я действительно хочу использовать сердцебиение для обозначения мастер-узла.

В настоящее время я просто запускаю простую установку с 2 узлами, node1 и node2, чьи IP-адреса не контролируются (приписывается через DHCP).

Поскольку узлы можно динамически добавлять в кластер, я настроил ha.cf следующим образом

keepalive 2
warntime 6
deadtime 12
logfacility local0
bcast eth0 # Linux
mcast eth0 225.0.0.1 694 1 0
auto_failback on
node virtual
node node1
node node2
respawn hacluster /usr/lib/heartbeat/ipfail
apiauth ipfail gid=haclient uid=hacluster

И такие источники

virtual \
        nginx

Итак, я установил кластер так, чтобы virtual узел является предпочтительным ресурсом для кластера. Этот узел не существует. Поэтому я ожидаю, что все резервные узлы пройдут через процесс выборов, чтобы решить, кто его возьмет, когда он выйдет из строя (= всегда). Я продолжаю так, потому что хочу динамически добавлять и удалять узлы в конфигурации, но мне все еще нужно иметь предпочтительный узел

Он отлично работает, когда я запускаю один узел, так как он просто забирает ресурс. Однако, когда я запускаю второй узел с точно такой же конфигурацией (scp'd конфигурация, поэтому нет риска различий), оба узла освобождают свои ресурсы (я могу проверить, что, так как ни один из узлов не запускает свой nginx и предыдущий мастер скажем, node1, выключает его).

Я могу публиковать полные журналы, если это необходимо, но, по сути, происходит то, что узлы просто пытаются получить ресурсы друг от друга и в конечном итоге оба высвобождают свои ресурсы с большим количеством

ERROR: Both machines own our resources!

а также

WARN: 1 lost packet(s) for [node2] [22:24]

заканчивая

Jul 23 15:17:21 node1 heartbeat: [16390]: info: node2 wants to go standby [foreign]
Jul 23 15:17:21 node1 heartbeat: [16390]: info: remote resource transition completed.
Jul 23 15:17:21 node1 heartbeat: [16390]: ERROR: Both machines own our resources!
Jul 23 15:17:21 node1 heartbeat: [16390]: ERROR: Both machines own our resources!
Jul 23 15:17:22 node1 heartbeat: [16390]: info: remote resource transition completed.
Jul 23 15:17:22 node1 heartbeat: [16390]: info: standby: acquire [foreign] resources from node2
Jul 23 15:17:22 node1 heartbeat: [16678]: info: acquire local HA resources (standby).
Jul 23 15:17:22 node1 heartbeat: [16678]: info: local HA resource acquisition completed (standby).
Jul 23 15:17:22 node1 heartbeat: [16390]: info: Standby resource acquisition done [foreign].

Если у кого-то есть предложение о том, как с этим разобраться (исправление или альтернативный метод), я весь слух.

Приветствия.

0 ответов

Другие вопросы по тегам