Как отладить и предотвратить нестабильную ненадежную ИТ-среду?

Я не ИТ-администратор, я разработчик программного обеспечения (стек Microsoft) и пытаюсь понять, что не так с ИТ-средой одного из наших клиентов.

Мы развернули наше клиент-серверное решение для среднего бизнеса. Проблема заключается в том, что клиентская ИТ-среда (в основном различные типы серверов Microsoft - sql-серверы, SharePoint, lync, IIS-серверы и т. Д. И т. Д.) Выглядит крайне хаотичной и ненадежной. Кажется, постоянно происходит сбой той или иной системы из-за того, что администратор перенастроил что-то на сервере, что влияет на работающее на нем программное обеспечение. Требуется много времени поддержки, чтобы продолжать входить и обнаруживать, что администратор изменил некоторые настройки на сервере, которые влияют на наше решение, а не что-либо напрямую связанное с нашим программным обеспечением.

Это не только наше программное обеспечение, оно, кажется, работает во всех их системах, и администраторы, кажется, постоянно ведут огонь. Как только все домино стоят, кто-то меняет что-то, что снова сбивает 1...

Я собираюсь поговорить с их ИТ-менеджером, но я не очень разбираюсь в практиках ИТ-администратора.

Что нужно посмотреть или поставить под сомнение? Есть ли в мире ИТ-администраторов какие-либо передовые практики или процессы, которые могут решить эту проблему? Другие предложения?

3 ответа

Как правило, надежность в ИТ обеспечивается несколькими различными практиками, а именно:

  • Контроль доступа
  • Управление изменениями
  • Управление конфигурацией
  • Ревизионный контроль
  • Секретный соус

Контроль доступа просто ограничивает тех, кто может вносить изменения в критические / производственные системы. Управление изменениями обычно осуществляется через контроль доступа и через систему тикетов. Запросы должны быть одобрены кем-то выше, прежде чем можно будет внести изменения. Управление конфигурацией - это обеспечение согласованности систем с использованием внешнего инструмента для жесткого контроля всех параметров их конфигурации. Обычно это достигается групповой политикой или другими инструментами, такими как Puppet/Chef/etc. Контроль версий предоставляет историю конфигурации.

"Секретный соус" - это ИТ-команда, которая знает, что, черт возьми, она делает. Все процессы и протоколы в мире не могут компенсировать ошибочные суждения и неопытных / бездарных инженеров.

Лучший процесс для подражания будет "нанять кого-то компетентного" имхо. Если команда сисадминов постоянно борется с огнем и не предпринимает никаких усилий для структурного улучшения своей среды, я бы посчитал, что они не годятся для этой работы.

Вы нанимаете надежный и надежный персонал. Другого пути нет.

Похоже, у них есть некомпетентный администратор. Администратор может быть просто перегружен работой, а не тестированием и ошибками на этом пути.

Вы можете купить их администратора Практика системного и сетевого администрирования. Или они могли бы нанять кого-то, кто уже знает это.

Другие вопросы по тегам