Сердцебиение не требует ресурсов
Я пытаюсь создать динамический кластер машин, которые должны взаимодействовать с главным узлом (для отчетов, обновлений и других задач, которые должны выполняться главным узлом).
Для удобства я подумал об использовании проекта heartbeat http://linux-ha.org/wiki/Heartbeat. Hearbeat предоставляет хороший механизм восстановления после сбоев и восстановления, который я хочу использовать. Я не планирую использовать ldirectord или какой-либо виртуальный IP. Я действительно хочу использовать сердцебиение для обозначения мастер-узла.
В настоящее время я просто запускаю простую установку с 2 узлами, node1 и node2, чьи IP-адреса не контролируются (приписывается через DHCP).
Поскольку узлы можно динамически добавлять в кластер, я настроил ha.cf следующим образом
keepalive 2
warntime 6
deadtime 12
logfacility local0
bcast eth0 # Linux
mcast eth0 225.0.0.1 694 1 0
auto_failback on
node virtual
node node1
node node2
respawn hacluster /usr/lib/heartbeat/ipfail
apiauth ipfail gid=haclient uid=hacluster
И такие источники
virtual \
nginx
Итак, я установил кластер так, чтобы virtual
узел является предпочтительным ресурсом для кластера. Этот узел не существует. Поэтому я ожидаю, что все резервные узлы пройдут через процесс выборов, чтобы решить, кто его возьмет, когда он выйдет из строя (= всегда). Я продолжаю так, потому что хочу динамически добавлять и удалять узлы в конфигурации, но мне все еще нужно иметь предпочтительный узел
Он отлично работает, когда я запускаю один узел, так как он просто забирает ресурс. Однако, когда я запускаю второй узел с точно такой же конфигурацией (scp'd конфигурация, поэтому нет риска различий), оба узла освобождают свои ресурсы (я могу проверить, что, так как ни один из узлов не запускает свой nginx и предыдущий мастер скажем, node1, выключает его).
Я могу публиковать полные журналы, если это необходимо, но, по сути, происходит то, что узлы просто пытаются получить ресурсы друг от друга и в конечном итоге оба высвобождают свои ресурсы с большим количеством
ERROR: Both machines own our resources!
а также
WARN: 1 lost packet(s) for [node2] [22:24]
заканчивая
Jul 23 15:17:21 node1 heartbeat: [16390]: info: node2 wants to go standby [foreign]
Jul 23 15:17:21 node1 heartbeat: [16390]: info: remote resource transition completed.
Jul 23 15:17:21 node1 heartbeat: [16390]: ERROR: Both machines own our resources!
Jul 23 15:17:21 node1 heartbeat: [16390]: ERROR: Both machines own our resources!
Jul 23 15:17:22 node1 heartbeat: [16390]: info: remote resource transition completed.
Jul 23 15:17:22 node1 heartbeat: [16390]: info: standby: acquire [foreign] resources from node2
Jul 23 15:17:22 node1 heartbeat: [16678]: info: acquire local HA resources (standby).
Jul 23 15:17:22 node1 heartbeat: [16678]: info: local HA resource acquisition completed (standby).
Jul 23 15:17:22 node1 heartbeat: [16390]: info: Standby resource acquisition done [foreign].
Если у кого-то есть предложение о том, как с этим разобраться (исправление или альтернативный метод), я весь слух.
Приветствия.