Документирование простоя для посмертного обзора

На прошлой неделе у нас был довольно серьезный сбой, затронувший несколько сервисов, которые вывели нас из нашего SLA с клиентами. Теперь, когда все решено, я провожу посмертный обзор.

Из этого обзора я хотел бы получить внутренний документ, в котором описывается сбой, его последствия, наш ответ и решение. Я хочу придумать довольно стандартную форму для повторного использования в будущем. Я включил свои мысли ниже, но какие еще пункты должны быть включены? Если бы это был инцидент, связанный с безопасностью, что бы вы добавили?

  • Сводная информация на уровне исполнительного руководства.
  • Затронутые услуги
  • Влияние Как это повлияло на наших пользователей и SLA? Были ли затраты в долларовом выражении, пропущенные транзакции, потерянные клиенты и т. Д.?
  • Продолжительность простоя Для каждой затронутой услуги, если были отклонения
  • Причина Включая первичные и вторичные причины
  • разрешение
  • График событий Уведомления, контакты с внешними поставщиками, уведомления клиентов, ответы и т. Д.
  • Проблемы с нашим ответом Не все ли пошло не так, как запланировано с нашим ответом на отключение? Правильные люди уведомлены? Выполнили ли продавцы свои договорные обязательства?
  • Профилактические меры Как мы можем предотвратить повторение этого сбоя или уменьшить его влияние?
  • Метод обнаружения Насколько хорошо мы обнаружили этот сбой и как мы можем улучшить обнаружение в будущем?
  • Изменения, которые необходимо внести в будущие ответы на сбои

Постарайтесь, чтобы сообщения были не более одного элемента и объяснения, и этот пост может быть обновлен с помощью ответов с наибольшим количеством голосов.

4 ответа

Несмотря на то, что это может быть рассмотрено в Профилактических мерах, которые я предпринимаю, я бы порекомендовал иметь раздел " Метод обнаружения ", который вы могли бы использовать, чтобы отметить истинные симптомы и как вы могли бы обнаружить проблему (быстрее), если она возникнет снова, в идеале с использованием автоматизации.

Выглядит хорошо. Я бы только добавил следующее:

Эффекты / последствия: Каковы последствия сбоя - кто был затронут, какие SLA были нарушены (если таковые имеются), были ли какие-либо побочные эффекты?

Затронутые услуги и длительность простоя говорят вам лишь о том, насколько серьезным был сбой. Вы также хотите знать, как это повлияло на бизнес.

Влияние: Как это повлияло на пользователей и как оно воспринималось? Сколько денег нам это стоило (из-за отсутствия SLA, потерянных заказов и т. Д.)?

Публичный релиз и внутренний релиз

Это больше для руководства, но вы можете в любом случае включить то, что следует сообщать клиентам об этом или о вашей рекомендации. Также в любом случае получите подтверждение от руководства о точной формулировке того, что будет передано клиентам, прежде чем что-либо выпускать.

Публичный выпуск должен быть включен в это, чтобы любой в компании знал, что им разрешено говорить клиентам.

Другие вопросы по тегам