Время ремонта сервисного центра Opscenter истекло. ОШИБКА: Запрашиваемый диапазон пересекает локальный диапазон [...]

В моем производственном кластере служба ремонта была включена с 16 апреля по умолчанию с 9-дневным сроком до завершения, и ремонт завершился бы должным образом. Однако, начиная с 22 мая, Opscenter автоматически отключает его:

Из /var/log/opscenter/opscenterd.log:

[...]
2014-06-03 21:13:47-0400 [zs_prod] ERROR: Repair task (<Node 10.1.0.22='6417880425364517165'>, (-4019838962446882275L, -4006140687792135587L), set(['zs_logging', 'OpsCenter'])) timed out after 3600 seconds.
2014-06-03 22:16:44-0400 [zs_prod] ERROR: Repair task (<Node 10.1.0.22='6417880425364517165'>, (-4006140687792135587L, -4006140687792135586L), set(['zs_logging', 'OpsCenter'])) timed out after 3600 seconds.
2014-06-03 22:16:44-0400 [zs_prod] ERROR: More than 100 errors during repair service, shutting down repair service
2014-06-03 22:16:44-0400 [zs_prod]  INFO: Stopping repair service
[...]

Из /var/log/opscenter/repair_service/zs_prod.log:

[...]
2014-06-03 22:16:44-0400 [zs_prod] ERROR: Repair task (<Node 10.1.0.22='6417880425364517165'>, (-4006140687792135587L, -4006140687792135586L), set(['zs_logging', 'OpsCenter'])) timed out after 3600 seconds.
2014-06-03 22:16:44-0400 [zs_prod] ERROR: Task (<Node 10.1.0.22='6417880425364517165'>, (-4006140687792135587L, -4006140687792135586L), set(['zs_logging', 'OpsCenter'])) has failed 1 times.
2014-06-03 22:16:44-0400 [zs_prod] ERROR: 101 errors have ocurred out of 100 allowed.
2014-06-03 22:16:44-0400 [zs_prod] ERROR: More than 100 errors during repair service, shutting down repair service
2014-06-03 22:16:44-0400 [zs_prod]  INFO: Stopping repair service

На узлах, на которых восстановление не удалось, из /var/log/cassandra/system.log:

ERROR [RMI TCP Connection(93502)-10.1.0.22] 2014-06-03 20:12:28,858 StorageService.java (line 2560) Repair session failed:
java.lang.IllegalArgumentException: Requested range intersects a local range but is not fully contained in one; this would lead to i
mprecise repair
        at org.apache.cassandra.service.ActiveRepairService.getNeighbors(ActiveRepairService.java:164)
        at org.apache.cassandra.repair.RepairSession.<init>(RepairSession.java:128)
        at org.apache.cassandra.repair.RepairSession.<init>(RepairSession.java:117)
        at org.apache.cassandra.service.ActiveRepairService.submitRepairSession(ActiveRepairService.java:97)
        at org.apache.cassandra.service.StorageService.forceKeyspaceRepair(StorageService.java:2620)
        at org.apache.cassandra.service.StorageService$5.runMayThrow(StorageService.java:2556)
        at org.apache.cassandra.utils.WrappedRunnable.run(WrappedRunnable.java:28)

Эти ошибки, которые возникают только при работающей службе восстановления, являются единственными ошибками, с которыми сталкиваются эти узлы. Вне задачи ремонта кластер Cassandra работает отлично.

Я использую Opscenter 4.1.2 с кластером DSE 4.0.2 из 6 узлов, установленным на виртуальных машинах Linux. Узлы запускают ванильную установку Ubuntu Server 12.04 64-bit, и DSE был установлен и защищен в соответствии с предоставленной документацией по установке.

Я тоже некоторое время сталкивался с этой проблемой в своем кластере разработки (с DSE 4.0.0, 4.0.1 и 4.0.2), но я подумал, что это связано с некоторой ошибкой конфигурации с моей стороны. Проблема появилась спонтанно и в какой-то момент.

Кластер Cassandra работал очень гладко с хорошей скоростью записи. Он очень стабилен и имеет достаточно ресурсов для работы. Мы не заметили никаких проблем с приложениями, которые от этого зависят.

1 ответ

Решение

Это известная ошибка в OpsCenter, которая была исправлена ​​в версии 4.1.3 (см. http://www.datastax.com/documentation/opscenter/4.1/opsc/release_notes/opscReleaseNotes413.html, последняя проблема)

Я не думаю, что есть обходной путь, кроме обновления OpsCenter (что должно быть довольно легко сделать)

Другие вопросы по тегам