mount.ocfs2: Конечная точка транспорта не подключена во время монтирования...?
Я заменил мертвый узел, который работал в режиме с двумя основными каналами, на OCFS2. Все шаги работают:
/proc/drbd
version: 8.3.13 (api:88/proto:86-96)
GIT-hash: 83ca112086600faacab2f157bc5a9324f7bd7f77 build by mockbuild@builder10.centos.org, 2012-05-07 11:56:36
1: cs:Connected ro:Primary/Primary ds:UpToDate/UpToDate C r-----
ns:81 nr:407832 dw:106657970 dr:266340 al:179 bm:6551 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:0
пока я не попытаюсь смонтировать том:
mount -t ocfs2 /dev/drbd1 /data/webroot/
mount.ocfs2: Transport endpoint is not connected while mounting /dev/drbd1 on /data/webroot/. Check 'dmesg' for more information on this error.
/var/log/kern.log
kernel: (o2net,11427,1):o2net_connect_expired:1664 ERROR: no connection established with node 0 after 30.0 seconds, giving up and returning errors.
kernel: (mount.ocfs2,12037,1):dlm_request_join:1036 ERROR: status = -107
kernel: (mount.ocfs2,12037,1):dlm_try_to_join_domain:1210 ERROR: status = -107
kernel: (mount.ocfs2,12037,1):dlm_join_domain:1488 ERROR: status = -107
kernel: (mount.ocfs2,12037,1):dlm_register_domain:1754 ERROR: status = -107
kernel: (mount.ocfs2,12037,1):ocfs2_dlm_init:2808 ERROR: status = -107
kernel: (mount.ocfs2,12037,1):ocfs2_mount_volume:1447 ERROR: status = -107
kernel: ocfs2: Unmounting device (147,1) on (node 1)
и ниже - журнал ядра на узле 0 (192.168.3.145):
kernel: : (swapper,0,7):o2net_listen_data_ready:1894 bytes: 0
kernel: : (o2net,4024,3):o2net_accept_one:1800 attempt to connect from unknown node at 192.168.2.93
:43868
kernel: : (o2net,4024,3):o2net_connect_expired:1664 ERROR: no connection established with node 1 after 30.0 seconds, giving up and returning errors.
kernel: : (o2net,4024,3):o2net_set_nn_state:478 node 1 sc: 0000000000000000 -> 0000000000000000, valid 0 -> 0, err 0 -> -107
Я уверен /etc/ocfs2/cluster.conf
на обоих узлах идентичны:
/etc/ocfs2/cluster.conf
node:
ip_port = 7777
ip_address = 192.168.3.145
number = 0
name = SVR233NTC-3145.localdomain
cluster = cpc
node:
ip_port = 7777
ip_address = 192.168.2.93
number = 1
name = SVR022-293.localdomain
cluster = cpc
cluster:
node_count = 2
name = cpc
и они подключены нормально
# nc -z 192.168.3.145 7777
Connection to 192.168.3.145 7777 port [tcp/cbt] succeeded!
но пульс O2CB не активен на новом узле (192.168.2.93):
/etc/init.d/o2cb status
Driver for "configfs": Loaded
Filesystem "configfs": Mounted
Driver for "ocfs2_dlmfs": Loaded
Filesystem "ocfs2_dlmfs": Mounted
Checking O2CB cluster cpc: Online
Heartbeat dead threshold = 31
Network idle timeout: 30000
Network keepalive delay: 2000
Network reconnect delay: 2000
Checking O2CB heartbeat: Not active
Вот результаты при запуске tcpdump
на узле 0 при запуске ocfs2
на узле 1:
1 0.000000 192.168.2.93 -> 192.168.3.145 TCP 70 55274 > cbt [SYN] Seq=0 Win=5840 Len=0 MSS=1460 TSval=690432180 TSecr=0
2 0.000008 192.168.3.145 -> 192.168.2.93 TCP 70 cbt > 55274 [SYN, ACK] Seq=0 Ack=1 Win=5792 Len=0 MSS=1460 TSval=707657223 TSecr=690432180
3 0.000223 192.168.2.93 -> 192.168.3.145 TCP 66 55274 > cbt [ACK] Seq=1 Ack=1 Win=5840 Len=0 TSval=690432181 TSecr=707657223
4 0.000286 192.168.2.93 -> 192.168.3.145 TCP 98 55274 > cbt [PSH, ACK] Seq=1 Ack=1 Win=5840 Len=32 TSval=690432181 TSecr=707657223
5 0.000292 192.168.3.145 -> 192.168.2.93 TCP 66 cbt > 55274 [ACK] Seq=1 Ack=33 Win=5792 Len=0 TSval=707657223 TSecr=690432181
6 0.000324 192.168.3.145 -> 192.168.2.93 TCP 66 cbt > 55274 [RST, ACK] Seq=1 Ack=33 Win=5792 Len=0 TSval=707657223 TSecr=690432181
RST
флаг отправляется после каждых 6 пакетов.
Что еще я могу сделать, чтобы отладить это дело?
PS:
Версии OCFS2 на узле 0:
- ocfs2-инструменты-1.4.4-1.el5
- ocfs2-2.6.18-274.12.1.el5-1.4.7-1.el5
Версии OCFS2 на узле 1:
- ocfs2-инструменты-1.4.4-1.el5
- ocfs2-2.6.18-308.el5-1.4.7-1.el5
ОБНОВЛЕНИЕ 1 - Вс 23 декабря 18:15:07 ИКТ 2012
Находятся ли оба узла в одном сегменте локальной сети? Нет роутеров и тд?
Нет, это 2 сервера VMWare в другой подсети.
О, пока я помню - имена хостов /DNS все настроены и работают правильно?
Конечно, я добавил имя хоста и IP-адрес каждого узла в /etc/hosts
:
192.168.2.93 SVR022-293.localdomain
192.168.3.145 SVR233NTC-3145.localdomain
и они могут соединяться друг с другом через имя хоста:
# nc -z SVR022-293.localdomain 7777
Connection to SVR022-293.localdomain 7777 port [tcp/cbt] succeeded!
# nc -z SVR233NTC-3145.localdomain 7777
Connection to SVR233NTC-3145.localdomain 7777 port [tcp/cbt] succeeded!
ОБНОВЛЕНИЕ 2 - Понедельник, 24 декабря 18:32:15 ИКТ 2012
Нашел подсказки: мой сотрудник вручную отредактировал /etc/ocfs2/cluster.conf
файл во время работы кластера. Таким образом, он все еще хранит информацию о мертвых узлах в /sys/kernel/config/cluster/
:
# ls -l /sys/kernel/config/cluster/cpc/node/
total 0
drwxr-xr-x 2 root root 0 Dec 24 18:21 SVR150-4107.localdomain
drwxr-xr-x 2 root root 0 Dec 24 18:21 SVR233NTC-3145.localdomain
( SVR150-4107.localdomain
в этом случае)
Я собираюсь остановить кластер, чтобы удалить мертвый узел, но получил следующую ошибку:
# /etc/init.d/o2cb stop
Stopping O2CB cluster cpc: Failed
Unable to stop cluster as heartbeat region still active
Я уверен, что ocfs2
Сервис уже остановлен:
# mounted.ocfs2 -f
Device FS Nodes
/dev/sdb ocfs2 Not mounted
/dev/drbd1 ocfs2 Not mounted
Больше нет ссылок:
# ocfs2_hb_ctl -I -u 12963EAF4E16484DB81ECB0251177C26
12963EAF4E16484DB81ECB0251177C26: 0 refs
Я также выгрузил ocfs2
модуль ядра для обеспечения:
# ps -ef | grep [o]cfs2
root 12513 43 0 18:25 ? 00:00:00 [ocfs2_wq]
# modprobe -r ocfs2
# ps -ef | grep [o]cfs2
# lsof | grep ocfs2
но ничего не меняется
# /etc/init.d/o2cb offline
Stopping O2CB cluster cpc: Failed
Unable to stop cluster as heartbeat region still active
Итак, последний вопрос: как удалить информацию о мертвых узлах без перезагрузки?
ОБНОВЛЕНИЕ 3 - Понедельник, 24 декабря 22:41:51 ИКТ 2012
Вот все запущенные темы сердцебиения:
# ls -l /sys/kernel/config/cluster/cpc/heartbeat/ | grep '^d'
drwxr-xr-x 2 root root 0 Dec 24 22:18 72EF09EA3D0D4F51BDC00B47432B1EB2
Ссылка имеет значение для этой области сердцебиения:
# ocfs2_hb_ctl -I -u 72EF09EA3D0D4F51BDC00B47432B1EB2
72EF09EA3D0D4F51BDC00B47432B1EB2: 7 refs
Попробуйте убить:
# ocfs2_hb_ctl -K -u 72EF09EA3D0D4F51BDC00B47432B1EB2
ocfs2_hb_ctl: File not found by ocfs2_lookup while stopping heartbeat
Есть идеи?
1 ответ
О да! Задача решена.
Обратите внимание на UUID:
# mounted.ocfs2 -d
Device FS Stack UUID Label
/dev/sdb ocfs2 o2cb 12963EAF4E16484DB81ECB0251177C26 ocfs2_drbd1
/dev/drbd1 ocfs2 o2cb 12963EAF4E16484DB81ECB0251177C26 ocfs2_drbd1
но:
# ls -l /sys/kernel/config/cluster/cpc/heartbeat/
drwxr-xr-x 2 root root 0 Dec 24 22:53 72EF09EA3D0D4F51BDC00B47432B1EB2
Это могло произойти, потому что я "случайно" переформатировал том OCFS2. Проблема, с которой я сталкиваюсь, похожа на эту в списке рассылки Ocfs2-user.
Это также является причиной ошибки ниже:
ocfs2_hb_ctl: файл не найден ocfs2_lookup при остановке сердцебиения
так как ocfs2_hb_ctl
не могу найти устройство с UUID 72EF09EA3D0D4F51BDC00B47432B1EB2
в /proc/partitions
,
Одна мысль приходит мне на ум: могу ли я изменить UUID тома OCFS2?
Глядя через tunefs.ocfs2
справочная страница:
Usage: tunefs.ocfs2 [options] <device> [new-size]
tunefs.ocfs2 -h|--help
tunefs.ocfs2 -V|--version
[options] can be any mix of:
-U|--uuid-reset[=new-uuid]
поэтому я делаю следующую команду:
# tunefs.ocfs2 --uuid-reset=72EF09EA3D0D4F51BDC00B47432B1EB2 /dev/drbd1
WARNING!!! OCFS2 uses the UUID to uniquely identify a file system.
Having two OCFS2 file systems with the same UUID could, in the least,
cause erratic behavior, and if unlucky, cause file system damage.
Please choose the UUID with care.
Update the UUID ?yes
Убедитесь, что:
# tunefs.ocfs2 -Q "%U\n" /dev/drbd1
72EF09EA3D0D4F51BDC00B47432B1EB2
Попытался убить область сердцебиения снова, чтобы увидеть, что происходит:
# ocfs2_hb_ctl -K -u 72EF09EA3D0D4F51BDC00B47432B1EB2
# ocfs2_hb_ctl -I -u 72EF09EA3D0D4F51BDC00B47432B1EB2
72EF09EA3D0D4F51BDC00B47432B1EB2: 6 refs
Продолжайте убивать, пока я не увижу 0 refs
затем выключите кластер:
# /etc/init.d/o2cb offline cpc
Stopping O2CB cluster cpc: OK
и останови это
# /etc/init.d/o2cb stop
Stopping O2CB cluster cpc: OK
Unloading module "ocfs2": OK
Unmounting ocfs2_dlmfs filesystem: OK
Unloading module "ocfs2_dlmfs": OK
Unmounting configfs filesystem: OK
Unloading module "configfs": OK
Перезапуск, чтобы увидеть, был ли обновлен новый узел:
# /etc/init.d/o2cb start
Loading filesystem "configfs": OK
Mounting configfs filesystem at /sys/kernel/config: OK
Loading filesystem "ocfs2_dlmfs": OK
Mounting ocfs2_dlmfs filesystem at /dlm: OK
Starting O2CB cluster cpc: OK
# ls -l /sys/kernel/config/cluster/cpc/node/
total 0
drwxr-xr-x 2 root root 0 Dec 26 19:02 SVR022-293.localdomain
drwxr-xr-x 2 root root 0 Dec 26 19:02 SVR233NTC-3145.localdomain
ОК, на равноправном узле (192.168.2.93) попытался запустить OCFS2:
# /etc/init.d/ocfs2 start
Starting Oracle Cluster File System (OCFS2) [ OK ]
Спасибо Сунилу Мушрану, потому что эта тема помогла мне решить проблему.
Уроки:
- IP-адрес, порт, ... могут быть изменены только когда кластер отключен. Смотрите FAQ.
- Никогда не форсируйте переформатирование тома OCFS2.