Кластер Ceph - Сниженная доступность данных: 96 страниц неактивны и все узлы OSD не работают

Я настроил свой кластер Ceph, следуя этому документу. У меня есть один узел менеджера, один узел мониторинга и три узла OSD. Проблема в том, что сразу после того, как я закончил настройку кластера,ceph healthвернулсяHEALTH_OKдля всех трех узлов. Однако, когда я вернулся в свой кластер, все было не в порядке. Это результат проверки работоспособности:

      HEALTH_WARN Reduced data availability: 96 pgs inactive
PG_AVAILABILITY Reduced data availability: 96 pgs inactive
    pg 0.0 is stuck inactive for 35164.889973, current state unknown, last acting []
    pg 0.1 is stuck inactive for 35164.889973, current state unknown, last acting []
    pg 0.2 is stuck inactive for 35164.889973, current state unknown, last acting []

а также для всех остальных стр. Я новичок в ceph и не знаю, почему это произошло. Я использую мнемосхему Ceph версии 13.2.10 (стабильную) . Я искал ответ, но у других, у которых, похоже, такая же проблема, не возникает сбоя узла. Все мои узлы OSD не работают, и это вывод дляceph -s:

        cluster:
    id:     xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxxx
    health: HEALTH_WARN
            Reduced data availability: 96 pgs inactive

  services:
    mon: 1 daemons, quorum server-1
    mgr: server-1(active)
    osd: 3 osds: 0 up, 0 in

  data:
    pools:   2 pools, 96 pgs
    objects: 0  objects, 0 B
    usage:   0 B used, 0 B / 0 B avail
    pgs:     100.000% pgs unknown
             96 unknown

Я также проверил журналы OSD и не понял, в чем проблема, но эти несколько строк указывают на то, что проблема связана с моей версией Ceph, и мне нужно обновиться до Luminous, но у меня уже есть более новая версия:

      2021-02-18 22:01:11.994 7fb070e25c00  0 osd.1 14 done with init, starting boot process
2021-02-18 22:01:11.994 7fb070e25c00  1 osd.1 14 start_boot
2021-02-18 22:01:11.998 7fb049add700 -1 osd.1 14 osdmap require_osd_release < luminous; please upgrade to luminous
2021-02-18 22:11:00.706 7fb050aeb700 -1 osd.1 15 osdmap require_osd_release < luminous; please upgrade to luminous
2021-02-18 22:35:52.276 7fb050aeb700 -1 osd.1 16 osdmap require_osd_release < luminous; please upgrade to luminous
2021-02-18 22:36:08.836 7fb050aeb700 -1 osd.1 17 osdmap require_osd_release < luminous; please upgrade to luminous
2021-02-19 04:05:00.895 7fb0512ec700  1 bluestore(/var/lib/ceph/osd/ceph-1) _balance_bluefs_freespace gifting 0x1f00000~100000 to bluefs
2021-02-19 04:05:00.931 7fb0512ec700  1 bluefs add_block_extent bdev 1 0x1f00000~100000
2021-02-19 04:23:51.208 7fb0512ec700  1 bluestore(/var/lib/ceph/osd/ceph-1) _balance_bluefs_freespace gifting 0x2400000~400000 to bluefs
2021-02-19 04:23:51.244 7fb0512ec700  1 bluefs add_block_extent bdev 1 0x2400000~400000

Я также проверил версии OSD с помощьюceph tell osd.* versionи это результат:

      Error ENXIO: problem getting command descriptions from osd.0
osd.0: problem getting command descriptions from osd.0
Error ENXIO: problem getting command descriptions from osd.1
osd.1: problem getting command descriptions from osd.1
Error ENXIO: problem getting command descriptions from osd.2
osd.2: problem getting command descriptions from osd.2

покаceph-osd --versionвозвращает мнемосхему Ceph версии 13.2.10 (стабильную).

Я не могу понять, в чем может быть проблема. я тоже попробовалsystemctl start -l ceph-osd@#и это не сработало. Я понятия не имею, что еще я могу попробовать и почему это вообще произошло.

1 ответ

Я помню, как пару раз сталкивался с одной и той же проблемой. Однажды проблема была в iptables, я забыл открыть порты для сети кластера как на мониторах, так и на OSD. В другой раз это произошло из-за того, что мой домен сбоя Crushmap был настроен на хост, и я запускал кластер «все в одном», проблема была решена путем установки Crushmap в osd.

Другие вопросы по тегам