Отказоустойчивая структура сервера для самых маленьких предприятий
Я пытаюсь понять, что делать для малого бизнеса, который страдает от нелепых аппаратных проблем. Прямо сейчас этот бизнес работает на пяти или шести настольных компьютерах; нет серверной инфраструктуры на месте. Вдобавок ко всему, и я не приукрашиваю это, они видели четыре отказа оборудования в этом году до настоящего времени, и это граничит с безумием.
Я уже обсуждал с ними идею установки Small Business Server (это магазин Microsoft), и они воспринимают эту идею. Я также планирую намочить ноги с помощью System Center Essentials, чтобы следить за происходящим. При этом основное внимание уделяется обеспечению доступности этого сервера.
Кроме того, я только что прочитал этот другой поток высокой доступности. Как и парень в этой теме, я новичок в ИТ, а не программист.
Некоторые идеи приходят на ум:
- Простой raid-5 с возможностью горячей замены и горячим резервированием
- Получить две более дешевые серверные машины, настроить для запуска один виртуализированный сервер с горячей миграцией (я немного читал, но, к сожалению, я не могу сказать, будут ли SBS Standard и SCE поддерживать это)
- Отказоустойчивая кластеризация? Я получил этот термин из другой ветки, но в прошлом он мне не показывался.
Есть ли лучшая практика, когда дело доходит до этого? Владелец бизнеса готов немного покопаться в карманах, потому что он боится простоев, но у меня нет опыта с ними, чтобы вести меня в одном направлении по другому.
Буду признателен за вашу мудрость!
редактировать: чтобы предоставить некоторые дополнительные детали о проблемах, с которыми они столкнулись, это была странная смесь необъяснимых сбоев.
- Включение шасси не приводит к включению системы: на материнской плате был встроенный переключатель, что обеспечивало решение с ограничением по времени, однако переключение корпуса не решило проблему. Позже отключение материнской платы также не решило проблему.
- Две идентичные машины страдали от отказов дисков в своих массивах raid-1, и обе машины были собраны не более 5 месяцев назад.
- Проблемы с загрузкой: одна система в raid-1 вообще не загружается. К сожалению, я не записал исходное сообщение об ошибке, но в своих заметках я обнаружил, что "Не удалось сохранить параметры запуска" в Windows Repair & Recovery привел меня к этой теме, которая поддержала мои подозрения, что это проблема, связанная с оборудованием.
Редактировать: Кроме того, машины работают в совокупности домашних офисов, так что электрические бытового класса в игре. Я думаю, что это может быть более способствующим фактором, чем я считал. Однако все машины работают на столах (буквально на рабочих столах!), А не на полу; Я не верю, что это связано с пылью.
5 ответов
Прежде всего, SCE излишне для 5-6 настольных компьютеров. WSUS, вероятно, лучший вариант и является бесплатным.
Вы не много говорили о том, что именно не удалось. Это было частью машины? Это пыльная среда? Моя основная среда поддержки - примерно 40 пользователей с примерно 10 серверами (не включая виртуализированные). Мы покупаем машины Dell (Optiplex), и у нас было, возможно, 4 отказа оборудования за последние 5 лет на ВСЕХ этих штуках. То, что вы видите на рабочих станциях, не нормально.
У них есть правильная серверная комната / местоположение для сервера (с охлаждением и не много пыли, по крайней мере?)
Raid-5 с горячей заменой - недорогой способ перейти на этот сервер и обеспечивает некоторую защиту от сбоя жесткого диска. Я бы также добавил резервные источники питания (недорогие) и ИБП.
- Аппаратное обеспечение серверного класса
- Набег на жесткие диски (отредактировано, чтобы добавить) Наличие горячего резерва, вероятно, излишним, так как большинство дисков по гарантии могут быть затрачены на ночь. Например, с 3 дисками в рейде-5 вы можете потерять один диск и быть в порядке, пока не появится новый. Потерять>1 диск, однако, вы облажались, независимо от того, как вы на это смотрите.
- резервные источники питания
- Правильная гарантия (например, с Dell мы получаем следующий рабочий день и сохраняем ваш жесткий диск, потому что мы можем прожить день простоя на любом из наших серверов).
- Решение для резервного копирования
Отказоустойчивая кластеризация? Вы начинаете входить в царство, которое является дорогостоящим и сложным для такой маленькой среды. Помните, что в такой маленькой среде, хотя время работы важно, также важно помнить, что вы хотите, чтобы все было как можно проще.
Что касается рабочих станций, решите проблему (о которой вы не совсем ясно поняли). Возможно, вы могли бы купить "дополнительную" рабочую станцию, на которой есть ваш базовый образ, которая просто сидит там и берет все ваши обновления от WSUS, которые вы могли бы использовать в качестве компьютера подкачки, если одна из их рабочих станций умирает (что мы и делаем), У нас также есть куча запчастей, которые мы можем заменить, чтобы заменить наиболее распространенные детали, которые умирают (блоки питания, оперативная память, жесткие диски) до тех пор, пока не поступит гарантийная деталь.
Резервные копии. Никакая избыточность не может заменить хорошие резервные копии. У вас есть множество вариантов здесь. С такой небольшой средой вы могли бы взглянуть на многие (на ум приходят Mozy, Carbonite) беспроводные решения, которые одновременно заботятся о удаленном и автоматизированном оборудовании за разумную цену. Вы также можете добавить решение для ленты и использовать такой сервис, как Iron Mountain, для хранения лент за пределами площадки. Что бы вы ни делали, не берите с собой записи домой! особенно если они имеют ценную информацию о них (SS# и т. д.)
Исходя из моего опыта, у SBS есть свои проблемы. Особенно, если вы настроили кластеризацию и т. Д. Усилия по обслуживанию слишком велики для такого маленького магазина.
Настройте подходящий маленький сервер, 4 диска, raid (5 | 10 | 6), raid-контроллер pci-e, базовый файловый сервер, ups (спасибо tomtom).
Почта для нескольких человек, вероятно, лучше всего обрабатывается внешним провайдером.
Держитесь подальше от SCE и подобных ситуаций с избыточным количеством ресурсов, поскольку вам потребуется VPN, Active Directory и т. П. Настройка всего этого - серьезное усилие, и, возможно, не в интересах вашего клиента.
Направляя вашего маленького клиента на простое, но эффективное и надежное решение, вы порадуете их и себя.
Научите их просматривать журналы событий, возможно, дайте им простой скрипт, который проверяет наличие предупреждений на диске. Посетите их регулярно, если они этого хотят, и проверьте журналы для них. Разберитесь с проблемами по одному.
Просто некоторые дополнительные идеи:
- Используйте RAID-6 вместо RAID-5+hot-spare. При использовании RAID-6 четность удваивается на дисках, поэтому вы можете получить сбой двух дисков одновременно. Или просто использовать RAID-5 и иметь рабочие резервные копии DR
- Во-первых, сконцентрируйтесь на избыточности ВНУТРИ серверной коробки (диски, блок питания, охлаждение)
- Купите некоторую услугу поддержки премиум-класса для серверного блока с SLA времени отклика на аппаратный сбой (это намного дешевле, чем кластерное решение)
- Купите (хороший) онлайн ИБП
- Внедрите какое-нибудь решение для обеспечения доступности, основанное на репликации, например DoubleTake Availability. Существует версия DoubleTake Availability, адаптированная для Windows SBS, которая очень недорогая. Для этого вам потребуется 2 сервера, но время простоя в случае сбоя оборудования сократится до 10 минут.
Это не проблема аппаратного обеспечения в первую очередь. Получите USV - СЕЙЧАС. Тот, который находится на линии (то есть фильтрует электричество).
Вдобавок ко всему, и я не приукрашиваю это, они видели четыре отказа оборудования в этом году до настоящего времени
Это смешно - ОЧЕНЬ редко - или основано, например, на колеблющейся силе или чем-то еще, что плохо с этим справилось. Это НЕ нормально, и вероятность того, что это произойдет "просто", ЧРЕЗВЫЧАЙНО низка. Как выигрыш в лотерею. Я видел похожее поведение - но основанное либо на источниках питания CRAP, либо... на нестабильных источниках питания с шипами, частично индуктивными (серверы умирают, когда вы включаете свет благодаря очень плохому переключателю, где вы могли видеть искры).
- SCE не нужен. WSUS достаточно.
- SBS на самом деле не поддерживает то, что вам нужно во время работы, но вы можете попробовать запустить его на платформе виртуализации. Это работает в Hyper-V... Я знаю людей, делающих это в демонстрационных целях.
Я не понимаю, какую проблему должен решать сервер.
Если все четыре машины принадлежат одному поставщику, и в вашем местоположении нет ничего необычного (очень высокая влажность / пыль, статическое электричество, молния или очень ненадежное питание), вам нужен новый поставщик оборудования. Что бы ни делали Dell, HP и IBM, чтобы получить плохую сторону владельца, поставщик этих машин хуже, по крайней мере, с аппаратной точки зрения. Вы получите большую надежность, покупая самые дешевые машины, которые вы можете найти в Wal-Mart.
Может быть, это не полностью вина производителя - может быть, кто-то указал конкретное оборудование и / или настоял на каком-то оборудовании с очень низкими характеристиками - но они все равно должны были отказаться от создания машин, которые плохо настроены, или сделать что-то героическое, чтобы заменить плохое машины.
Я предлагаю вам купить некоторые промежуточные ПК от Dell/HP/Lenovo (или пнуть задницу текущего поставщика, чтобы поддержать то, что они продали), подписаться на некоторые платные аккаунты Dropbox (или box.net, или NetDocuments).) обмениваться файлами, а ваш интернет-провайдер или Google должны обрабатывать почту и веб-обслуживание.
[* Да, "облачные" сервисы теоретически менее безопасны, чем владение вашим собственным сервером - но если они работают в нескольких домашних офисах, данные подвергаются риску, если какой-либо из этих домов будет взломан или кто-то из членов семьи использует рабочая машина для запуска случайных вредоносных программ из интернета, когда сотрудника нет дома или в отпуске. Самая большая опасность простоя будет связана с сетевыми соединениями потребительского уровня, а не с простоем провайдера.]
Похоже, вам нужно меньше оборудования и более простое оборудование, если вам нужна надежность, не более сложное и более дорогое оборудование / программное обеспечение.