Использование сервера и как бороться с отказом центра обработки данных
Новые технологии, такие как Docker, Mesos, Kubernetes и т. Д., Позволяют значительно лучше использовать серверы в организации. Тем не менее, я хотел бы знать, как можно максимально увеличить использование в двух центрах обработки данных, принимая во внимание сбой всего центра обработки данных.
Учитывая этот сценарий:
Два центра обработки данных (DC-A и DC-B) с равным количеством вычислительных ресурсов. Оба центра обработки данных работают и обслуживают запросы в режиме сбалансированной / циклической загрузки. Использование сервера в обоих центрах обработки данных составляет 80%.
Скажем, DC-B выходит из строя (физический или сетевой) и недоступен. DC-A не сможет добавить дополнительно 80% использования, так как само по себе оно составляет 80%. Оставив организацию в состоянии, где потенциально DC-A не сможет справиться с дополнительным спросом и вызовет сбои...
Означает ли это, что организация с двумя центрами обработки данных (DC-A и DC-B) может иметь максимальное использование только 50% на один центр обработки данных? Т.е. любой DC не работает, и другой DC сможет выявить провал, который нес другой (50% + 50%).
Правильно ли это мышление? Как другие решают эту проблему или я что-то упустил?
2 ответа
Для служб, которые должны быть всегда доступны, вам необходима избыточность N+1, где N - это количество центров данных или серверов (или что-либо еще, что вы потеряете в предлагаемом сценарии сбоя), необходимое для обработки нагрузки. Это становится дешевле, чем больше - на нижнем конце с двумя центрами обработки данных каждый должен уметь справляться со всей рабочей нагрузкой. Но если у вас есть 10, они могут выполнять работу 9 и все еще быть избыточными.
Другой вариант - сброс нагрузки, хотя эта фраза чаще используется в системах питания. По сути, отключите все второстепенные службы в случае сбоя, чтобы у остальных систем было достаточно ресурсов.
Довольно распространенный подход заключается в том, что для производственной среды жестко зарезервированной емкости достаточно, чтобы в случае бедствия оставшиеся центры обработки данных могли справиться с полной нагрузкой, и все операции продолжали работать в обычном режиме.
Как правило, бюджеты никогда не растягиваются достаточно далеко, и очевидное экономическое обоснование не дает возможности полного аварийного восстановления / восстановления после отказа для непроизводственных сред. Деградация или полная недоступность могут считаться приемлемыми там.
В зависимости от платформы некоторые могут выбрать вариант увеличения доступной производственной мощности для удовлетворения возросшей нагрузки в остальных центрах обработки данных за счет сокращения непроизводственных сред в случае аварии.