Кластеры становятся недоступными со статусом ОШИБКА
Я создал два кластера GKE с функцией автоматического обновления. Внезапно потерял весь доступ к этим кластерам и увидел две операции REPAIR_CLUSTER для каждой из них, которые считаются DONE (список операций бета-контейнера gcloud), и список кластеров контейнера gcloud показывает мне два моих кластера со STAUS: ERROR.
PS Насколько я знаю, никто из наших инженеров за этот период не выполнял никаких операций на уровне кластера.
2 ответа
Это была проблема с оплатой. Я полагаю, поскольку у меня нет доступа к биллингу, кроме администратора во всех остальных случаях, сообщения об ошибках настолько неясны, насколько это возможно.
На первый взгляд, трудно объяснить, почему кластеры возвращают статус ОШИБКИ, не просматривая файлы журнала или кластер. Проблема здесь на уровне мастера кластера. Хозяин кластера работает и запускает сервер API Kubernetes, контроллеры основных ресурсов, планировщик, и, как бы то ни было, в вашем случае в основных файлах возникают ошибки. Однако пользователи не имеют доступа к мастеру GKE, поэтому на вашем уровне это будет сложно исследовать.
Решения:
- Редактировать кластер. Это означает, что вы можете создать новый модуль, узел, набор демонов или развертывание. API обновят мастер, что может исправить ошибки в кластере.
- Вы можете попробовать понизить мастер кластера (или пул узлов) до предыдущей версии. Если какие-либо проблемы были вызваны функцией автоматического обновления, она вернется к исходным настройкам.
- Вы можете удалить и воссоздать кластер. Это обновит мастер, но это должно быть сделано в крайнем случае, если все другие варианты не сработают.
- Я также рекомендую вам создать новую проблему в Public Issue Tracker. Специалист службы поддержки GKE рассмотрит проблему и сможет осмотреть кластер.