Почему Red Hat Cluster Suite перестал работать?
Я тестировал Cluster Suite на CentOS 6.4, и он работал нормально, но я заметил сегодня [8 августа, когда изначально задавался этот вопрос], что ему не нравится конфигурация, которая работала ранее. Я пытался воссоздать конфигурацию с нуля, используя CCS, но это дало ошибки проверки.
Отредактировано 21 августа:
Теперь я полностью переустановил коробку из минимальной установки CentOS 6.4 x86_64, добавив следующие пакеты и их зависимости:
yum install bind-utils dhcp dos2unix man man-pages man-pages-overrides nano nmap ntp rsync tcpdump unix2dos vim-enhanced wget
а также
yum install rgmanager ccs
Следующие команды все работали:
ccs -h ha-01 --createcluster test-ha
ccs -h ha-01 --addnode ha-01
ccs -h ha-01 --addnode ha-02
ccs -h ha-01 --addresource ip address=10.1.1.3 monitor_link=1
ccs -h ha-01 --addresource ip address=10.1.1.4 monitor_link=1
ccs -h ha-01 --addresource ip address=10.110.0.3 monitor_link=1
ccs -h ha-01 --addresource ip address=10.110.8.3 monitor_link=1
ccs -h ha-01 --addservice routing-a autostart=1 recovery=restart
ccs -h ha-01 --addservice routing-b autostart=1 recovery=restart
ccs -h ha-01 --addsubservice routing-a ip ref=10.1.1.3
ccs -h ha-01 --addsubservice routing-a ip ref=10.110.0.3
ccs -h ha-01 --addsubservice routing-b ip ref=10.1.1.4
ccs -h ha-01 --addsubservice routing-b ip ref=10.110.8.3
и привел к следующему конфигу:
<?xml version="1.0"?>
<cluster config_version="13" name="test-ha">
<fence_daemon/>
<clusternodes>
<clusternode name="ha-01" nodeid="1"/>
<clusternode name="ha-02" nodeid="2"/>
</clusternodes>
<cman/>
<fencedevices/>
<rm>
<failoverdomains/>
<resources>
<ip address="10.1.1.3" monitor_link="1"/>
<ip address="10.1.1.4" monitor_link="1"/>
<ip address="10.110.0.3" monitor_link="1"/>
<ip address="10.110.8.3" monitor_link="1"/>
</resources>
<service autostart="1" name="routing-a" recovery="restart">
<ip ref="10.1.1.3"/>
<ip ref="10.110.0.3"/>
</service>
<service autostart="1" name="routing-b" recovery="restart">
<ip ref="10.1.1.4"/>
<ip ref="10.110.8.3"/>
</service>
</rm>
</cluster>
Однако, если я использую ccs_config_validate
или попробуйте запустить cman
сервис, он терпит неудачу с:
Relax-NG validity error : Extra element rm in interleave
tempfile:10: element rm: Relax-NG validity error : Element cluster failed to validate content
Configuration fails to validate
В чем дело? Это раньше работало!
2 ответа
Это только начало работать снова, после того, как больше yum update
танцы. Я сравнил старое и новое /var/lib/cluster/cluster.rng
и, удивление, удивление, есть разница. В системах, которые не работали, отсутствовали какие-либо определения для <ip>
элемент.
Текущее воплощение системы было установлено с того же минимального компакт-диска, и у меня есть пошаговая процедура команд для вырезания и вставки, которая работала несколько раз, пока я ее разрабатывал, потом не получалось в течение почти двух месяцев, теперь запускается снова работает Я собрал коробку примерно полдюжины раз, так что, думаю, это не процедура.
Возможно, ошибка со стороны Red Hat, но я не уверен, как узнать, какие изменения были внесены в этот файл за последние два месяца.
Я думаю, что у вас отсутствуют отказоустойчивые домены. Если вы хотите определить службу в кластере Redhat, сначала вам нужно определить отказоустойчивый домен, вы можете использовать отказоустойчивый домен для многих служб или по одному на службу.
Если вам нужна дополнительная информация о отказоустойчивом домене "man clurgmgrd"
Отказоустойчивый домен - это упорядоченное подмножество участников, к которым может быть привязана служба. Следующие
список семантики, управляющий параметрами того, как различные параметры конфигурации влияют на поведение отказоустойчивого домена: