Лучший способ улучшить устойчивость?

Один из основных проектов, намеченных мной в 2010 году, - это попытка смягчить некоторые из единственных точек отказа (SPOF) в сети, которой я в настоящее время управляю. В настоящее время у нас есть одна стойка для центра обработки данных, содержащая пару десятков серверов.
Внутри стойки мы избыточны и устойчивы, каждый сервер имеет 2 диска и может противостоять одному отказу.
Наши серверы хранения данных имеют 3+ диска и могут выдержать один сбой. Мы также быстро ремонтируем / заменяем сломанное оборудование. У каждого сервера есть хотя бы один реплицированный партнер, и мы можем потерять 1 или 2 из каждого кластера (т. Е. Веб, база данных, хранилище).

Подключение к Интернету обеспечивается 2 100-мегабитными каналами через Ethernet для нашего основного транзитного провайдера, соединяющегося в пару межсетевых экранов Cisco ASA5500 в паре аварийного переключения высокой доступности. Это не проблема.

На мой взгляд, два больших SPOF:

1) Наш интернет исходит от одного транзитного провайдера. Если их сеть выходит из строя, мы отключаемся от интернета. Поскольку мы находимся в нейтральном центре обработки данных оператора, довольно просто получить второй транзит IP.

2) Если что-то случится с силой в нашем центре обработки данных, то мы тоже ушли.

В идеале я хотел бы, чтобы серверы находились в 2 центрах обработки данных, которые используют разные маршруты через нескольких провайдеров IP-транзита, объявляя их через BGP.

Во втором центре обработки данных я бы выделил 2 маршрутизатора cisco серии 28xx, 2 брандмауэра ASA 5500, пару коммутаторов Catalyst с 48 портами и дюжину серверов Dell или около того. Примерно в соответствии с основным местоположением.

Руководство утверждает, что с этим подходом связаны огромные расходы, а маршрут BGP чрезмерно дорог. В то время как они, кажется, счастливы иметь второе местоположение, BGP, кажется, находится вне стола.

Последняя цитата для multihoming была близка к £80k. (Возможно, они просили цитаты для позолоченных Ciscos!)

Вместо этого руководство считает, что это лучше решать с помощью решения на основе DNS, где наша маршрутизация контролируется службой мониторинга состояния безотказной работы (например, pingdom), которая изменяет наши записи DNS (с TTL 1 с), указывая на альтернативное местоположение в случае сбоя сервера.

Многие компании используют BGP по какой-то причине, это DNS-решение просто не собирается его сокращать, особенно с учетом того, что очень многие интернет-провайдеры и т. Д. Фактически игнорируют короткие TTL и заменяют их более длинными.

Вопросы:

1) Может ли кто-нибудь порекомендовать хороший нейтральный центр обработки данных в Западной Европе (Амстердам и т. Д.) Или в Восточной США (округ Колумбия, Вирджиния, Нью-Йорк и т. Д.)?

2) Кто-нибудь сделал, чтобы это решение DNS работало должным образом, или это случай полного безумия?

3) Я единственный, кто думает, что котировка в 80 000 фунтов стерлингов за множественное возвращение (в 1 месте) кажется абсолютно чрезмерной?

4) Есть ли у кого-нибудь хороший способ убедить руководство, что BGP является единственным реалистичным решением?

Извинения за длину..: о)

4 ответа

Решение

Ну, вы правы, DNS определенно не является ответом - возьмите это от кого-то, кто управлял мультидомными сетями ISP, и теперь делает DNS для жизни.

Для чего была предложена цена в 80 тыс. Фунтов - только BGP и дополнительный транзитный канал, или же на необходимые маршрутизаторы Cisco? 2800, которые вы сейчас перечислите, вероятно, не способны выполнять полную таблицу маршрутизации - в настоящее время в глобальной таблице BGP4 более 200 тыс. Маршрутов, и это занимает много памяти маршрутизатора.

Прошло пару лет с тех пор, как я делал это по-настоящему, но на самом деле получение BGP от транзитных поставщиков не должно быть дорогим - действительно, крупные поставщики ожидают предложить BGP в качестве части услуги, особенно если вы принимаете 100+ Мбит / с,

Кроме того, где сейчас находится главный центр обработки данных? Вам не обязательно нужно огромное разнообразие - у моей сети изначально было два DC в Лондоне - один в городе и один в Докленде, на расстоянии около 10 км. Этого достаточно, чтобы исключить большинство стихийных бедствий.

Если у вас есть оба сайта в Лондоне, есть ряд компаний, которые предлагают дешевые сетевые каналы связи между многими центрами обработки данных в городе. Одним из наиболее уважаемых является Datahop - они осуществляют связь между сайтами со скоростью 1 Гбит / с примерно за 4 000 фунтов стерлингов в год.

Точно так же для сайта резервного копирования, если вы хотите, чтобы вторая транзитная ссылка использовалась только в чрезвычайных ситуациях, я видел глупо низкие цены, подобные Cogent, за 5 фунтов стерлингов за Мбит / с. Я бы не использовал их в качестве основного, но в качестве последнего средства, которое они стоит рассмотреть.

  1. Мой предыдущий работодатель находится в одном из учреждений Эквиникса в Нью-Джерси. Они казались достаточно счастливыми, когда я работал на них. Кроме того, извини, я не особо много делаю в этой части мира.

  2. Отработка отказа DNS - отстой. Как вы заметили, есть достаточно провайдеров, которые игнорируют DNS TTL, что отказоустойчивость DNS вызовет изжогу управления в первый раз, когда это произойдет.

  3. Да, это огромная сумма денег для BGP multihoming.

  4. Не зная психологии вашего управления, я не могу предложить много конкретного. Найдите не глупую цитату для BGP и напомните им, что на самом деле стоит иметь полностью избыточное средство - это намного больше, чем они, по-видимому, думают, особенно после того, как вы добавите необходимость в регулярных тестах отработки отказа, чтобы убедиться, что все по-прежнему работает правильно.

Кроме того, проведите некоторый разумный анализ сценариев и вероятностей отказов, а также, сколько это на самом деле стоит, если произойдет один из них. Может оказаться, что из-за перебоев в подаче электроэнергии каждые несколько часов простоя каждые несколько лет намного меньше, чем в случае резервирования. Много раз менеджмент (или технические специалисты) прибегают к "избыточному веселью", которое не имеет никакого экономического смысла.

И наконец, помните, что большинство отключений на самом деле спровоцировано человеком, что означает отказоустойчивые сайты и вся эта дополнительная сложность, скорее всего, увеличит шансы, а не уменьшит их.

Всего несколько быстрых мыслей;

  • Разделите ваш комплект на две стойки, каждая из которых питается от разных ответвлений той же фазы от PDU.
  • Поместите ИБП в каждую стойку, если у PDU ее нет.
  • Рассмотрим глобальную балансировку нагрузки через BGP, это то, как мы делаем наши активно-активные мультисайтовые вещи.
  • Рассмотрим Telehouse (telehouse.net), они имеют места в Западной Европе и Восточной США и являются нейтральными и высоко ценятся.

Простое и удачное решение. Наш сайт электронной коммерции среднего размера использует Zoneedit DNS для восстановления после отказа и AlertFox для тестирования транзакций. Если исключить взлеты в течение 1-3 минут во время переключения, время работы в этом году составило 100%. Стоимость: 20$/ год (?) Для Zoneedit и 199 $ / месяц для AlertFox PRO3. Плюс два выделенных сервера.

Другие вопросы по тегам