Почему Red Hat Cluster Suite перестал работать?

Я тестировал Cluster Suite на CentOS 6.4, и он работал нормально, но я заметил сегодня [8 августа, когда изначально задавался этот вопрос], что ему не нравится конфигурация, которая работала ранее. Я пытался воссоздать конфигурацию с нуля, используя CCS, но это дало ошибки проверки.


Отредактировано 21 августа:

Теперь я полностью переустановил коробку из минимальной установки CentOS 6.4 x86_64, добавив следующие пакеты и их зависимости:

yum install bind-utils dhcp dos2unix man man-pages man-pages-overrides nano nmap ntp rsync tcpdump unix2dos vim-enhanced wget

а также

yum install rgmanager ccs

Следующие команды все работали:

ccs -h ha-01 --createcluster test-ha
ccs -h ha-01 --addnode ha-01
ccs -h ha-01 --addnode ha-02
ccs -h ha-01 --addresource ip address=10.1.1.3 monitor_link=1
ccs -h ha-01 --addresource ip address=10.1.1.4 monitor_link=1
ccs -h ha-01 --addresource ip address=10.110.0.3 monitor_link=1
ccs -h ha-01 --addresource ip address=10.110.8.3 monitor_link=1
ccs -h ha-01 --addservice routing-a autostart=1 recovery=restart
ccs -h ha-01 --addservice routing-b autostart=1 recovery=restart
ccs -h ha-01 --addsubservice routing-a ip ref=10.1.1.3
ccs -h ha-01 --addsubservice routing-a ip ref=10.110.0.3
ccs -h ha-01 --addsubservice routing-b ip ref=10.1.1.4
ccs -h ha-01 --addsubservice routing-b ip ref=10.110.8.3

и привел к следующему конфигу:

<?xml version="1.0"?>
<cluster config_version="13" name="test-ha">
    <fence_daemon/>
    <clusternodes>
        <clusternode name="ha-01" nodeid="1"/>
        <clusternode name="ha-02" nodeid="2"/>
    </clusternodes>
    <cman/>
    <fencedevices/>
    <rm>
        <failoverdomains/>
        <resources>
            <ip address="10.1.1.3" monitor_link="1"/>
            <ip address="10.1.1.4" monitor_link="1"/>
            <ip address="10.110.0.3" monitor_link="1"/>
            <ip address="10.110.8.3" monitor_link="1"/>
        </resources>
        <service autostart="1" name="routing-a" recovery="restart">
            <ip ref="10.1.1.3"/>
            <ip ref="10.110.0.3"/>
        </service>
        <service autostart="1" name="routing-b" recovery="restart">
            <ip ref="10.1.1.4"/>
            <ip ref="10.110.8.3"/>
        </service>
    </rm>
</cluster>

Однако, если я использую ccs_config_validate или попробуйте запустить cman сервис, он терпит неудачу с:

Relax-NG validity error : Extra element rm in interleave
tempfile:10: element rm: Relax-NG validity error : Element cluster failed to validate content
Configuration fails to validate

В чем дело? Это раньше работало!

2 ответа

Решение

Это только начало работать снова, после того, как больше yum update танцы. Я сравнил старое и новое /var/lib/cluster/cluster.rng и, удивление, удивление, есть разница. В системах, которые не работали, отсутствовали какие-либо определения для <ip> элемент.

Текущее воплощение системы было установлено с того же минимального компакт-диска, и у меня есть пошаговая процедура команд для вырезания и вставки, которая работала несколько раз, пока я ее разрабатывал, потом не получалось в течение почти двух месяцев, теперь запускается снова работает Я собрал коробку примерно полдюжины раз, так что, думаю, это не процедура.

Возможно, ошибка со стороны Red Hat, но я не уверен, как узнать, какие изменения были внесены в этот файл за последние два месяца.

Я думаю, что у вас отсутствуют отказоустойчивые домены. Если вы хотите определить службу в кластере Redhat, сначала вам нужно определить отказоустойчивый домен, вы можете использовать отказоустойчивый домен для многих служб или по одному на службу.

Если вам нужна дополнительная информация о отказоустойчивом домене "man clurgmgrd"

Отказоустойчивый домен - это упорядоченное подмножество участников, к которым может быть привязана служба. Следующие

список семантики, управляющий параметрами того, как различные параметры конфигурации влияют на поведение отказоустойчивого домена:

Другие вопросы по тегам