Эскалация инцидентов

1) Цель и принципы

Эскалация инцидентов — это управляемый процесс быстрого привлечения правильных ролей и ресурсов для минимизации воздействия на пользователей и бизнес-метрики.

Ключевые принципы:

Скорость важнее идеальности. Лучше задекларировать инцидент раньше и деэскалировать, чем опоздать.
Единое командование. Один ответственный за решение — Incident Commander (IC).
Прозрачность. Четкие статусы и каналы коммуникации для внутренних и внешних стейкхолдеров.
Документируемость. Все шаги, решения и таймлайны фиксируются для аудита и улучшений.

2) Градация серьезности (SEV/P-уровни)

Пример шкалы (адаптируйте под домен/юрисдикции):

SEV-0 / P0 (критический) — полная недоступность ключевой функции (логин/платеж), утечка данных, юридический риск. Немедленный пейдж всего ядра on-call, freeze релизов.
SEV-1 / P1 (высокий) — деградация p95/p99, повышенная доля ошибок/отказов в ключевом процессе, недоступность региона/провайдера.
SEV-2 / P2 (средний) — частичная деградация для ограниченной когорты (регион, провайдер), есть обходной путь.
SEV-3 / P3 (низкий) — не критично для пользователя, но требует внимания (фоновая задержка ETL, просроченный отчет).

Матрица определения уровня (упрощенно):

Радиус поражения (сколько пользователей/оборот) × длительность × чувствительность (регуляторика/PR) → уровень SEV.

3) KPI процесса

MTTD (время обнаружения) — от начала инцидента до первого сигнала.
MTTA (время принятия) — от сигнала до подтверждения IC.
MTTR (время восстановления) — до восстановления SLO/функции.
Escalation Latency — от подтверждения до подключения нужной роли/команды.
Reopen Rate — доля инцидентов, повторно открытых после “решено”.
Comm SLA — соблюдение интервалов внешних/внутренних апдейтов.

4) Роли и ответственность (RACI)

Incident Commander (IC): владелец решения, устанавливает уровень, план, freeze, эскалации, деэскалацию. Не пишет фиксы.
Tech Lead (TL): техническая диагностика, гипотезы, координация инженеров.
Comms Lead (CL): статус-страницы, клиентская и внутренняя коммуникация, согласование с Legal/PR.
Scribe: точная фиксация фактов, таймлайна, принятых решений.
Liaisons (связные): представители внешних провайдеров/команд (платежи, KYC, хостинг).
On-call инженеры: исполнение плана, запуск плейбуков/откатов.

Назначьте дежурные графики и бэкапы по каждой роли.

5) Каналы и артефакты

War-room канал (ChatOps): единая точка координации (Slack/Teams) с шаблоном авто-аннотаций (версии, флаги, канарейки).
Видеомост для SEV-1+.
Тикет инцидента (one-pager): ID, SEV, IC, участники, гипотеза/диагноз, шаги, ETA, статус, импакт, ссылки на графики.
Статус-страница: публичная/внутренняя; расписание регулярных апдейтов (например, каждые 15–30 минут для SEV-1+).

6) Тайм-боксы и стандартные интервалы

T0 (мин. 0–5): IC назначен, SEV присвоен, freeze релизов (если нужно), war-room открыт.
T+15 мин: первое публичное/внутреннее сообщение (что затронуто, workaround, следующее окно апдейта).
T+30/60 мин: эскалация следующего уровня (платформа/БД/безопасность/провайдеры), если нет устойчивой динамики.
Регулярные апдейты: SEV-0: каждые 15 мин; SEV-1: каждые 30 мин; SEV-2+: каждый час.

7) Правила авто-эскалации (политики срабатывания)

Записываются как код и подключаются к мониторингу/алертингу:

Burn-rate бюджета ошибок выше порога в коротком и длинном окнах.
Кворум внешних проб: ≥2 регионов фиксируют деградацию HTTP/TLS/DNS.
Бизнес-SLI (успех платежей/регистраций) падает ниже SLO.
Security-сигнатуры: подозрение на утечку/компрометацию.
Провайдерский сигнал: вебхук статуса “major outage”.

8) Процесс от обнаружения до решения

1. Декларация инцидента (IC): SEV, охват, freeze, запуск плейбуков.
2. Диагностика (TL): гипотезы, изоляция радиуса (регион, провайдер, фича), проверки (DNS/TLS/CDN/БД/кэши/шина).
3. Митигирующие действия (быстрые победы): откат/канарейка ↓, фича-флаг деградации, failover провайдера, rate-limit, кеш-оверлей.
4. Коммуникация (CL): статус-страница, клиенты/партнеры, Legal/PR, обновления по графику.
5. Подтверждение восстановления: внешняя синтетика + реальные метрики (SLI), снятие freeze.
6. Деэскалация: снижение SEV, переход в наблюдение N минут/часов.
7. Закрытие и RCA: подготовка пост-мортема, action items, владельцы и сроки.

9) Работа с внешними провайдерами

Собственные пробы к провайдерам из нескольких регионов + зеркальные лог-примеры запросов/ошибок.
Соглашения об эскалации (контакты, SLA ответа, приоритет, вебхуки статуса).
Автоматический failover/перераздача трафика по SLO провайдера.
Доказательная база: таймлайн, sample запросы/ответы, графики латентности/ошибок, ID тикета провайдера.

10) Регуляторика, безопасность и PR

Security/P0: изоляция, сбор артефактов, минимизация разглашения, обязательные уведомления (внутренние/внешние/регулятор).
Legal: согласование формулировок внешних апдейтов, учет договорных SLA/штрафов.
PR/Клиентский сервис: готовые шаблоны ответов, Q&A, компенсации/кредиты (если применимо).

11) Шаблоны сообщений

Первичное (T+15):

«Мы расследуем инцидент SEV-1, затрагивающий [функцию/регион]. Симптомы: [кратко]. Мы активировали обходной путь [описание]. Следующее обновление — в [время].»

Обновление:

«Диагностика: [гипотеза/подтверждение]. Действия: [переключили провайдера/откатили релиз/включили деградацию]. Импакт снижен до [процентов/когорты]. Следующий апдейт — [время].»

Решение:

«Инцидент SEV-1 решен. Причина: [корневая]. Время восстановления: [MTTR]. Следующие шаги: [фикс/проверки/наблюдение N часов]. Пост-мортем — [когда/где].»

12) Плейбуки (примерные)

Падение успеха платежей: снизить долю на провайдера A, перевести X% на B; включить “degrade-payments-UX”; включить ретраи в лимитах; оповестить фин-команду.
Рост p99 API: уменьшить канарейку новой версии; выключить тяжелые фичи; увеличить кеш-TTL; проверить БД-индексы/коннекты.
Проблема DNS/TLS/CDN: проверить сертификаты/цепочку; обновить запись; переключить на резервный CDN; пересобрать кеш.
Security-подозрение: изоляция узлов, ключевая ротация, включение mTLS-ручек, сбор артефактов, уведомление Legal.

13) Деэскалация и критерии “решено”

Инцидент переводится на уровень ниже, если:

SLI/SLO стабильно в зеленой зоне ≥ N интервалов;
выполнены митигирующие действия и наблюдение — без регресса;
для security-класса — подтверждена закрытость векторов, ключи/секреты ротированы.

Закрытие — только после фиксации таймлайна, владельцев action items и сроков.

14) Post-mortem (некарательный)

Структура:

1. Факты (таймлайн, что видели пользователи/метрики).

2. Корневая причина (техническая/процессная).

3. Что сработало/не сработало в эскалации.

4. Превентивные меры (тесты, алерты, лимиты, архитектура).

5. План действий с дедлайнами и владельцами.

6. Связь с error budget и пересмотр SLO/процессов.

15) Метрики зрелости процесса

Доля инцидентов, задекларированных до жалоб пользователей.
MTTA по уровням SEV; время на подключение нужной роли.
Соблюдение интервалов апдейтов (Comm SLA).
Процент инцидентов, решенных плейбуками без ручного “творчества”.
Выполнение action items из пост-мортемов в срок.

16) Анти-паттерны

“Кто-нибудь сделайте что-нибудь” — нет IC/ролей.
Многоголосие в war-room — спор о версиях вместо действий.
Поздняя декларация → потеря времени на сбор людей.
Нет freeze и аннотаций релизов — параллельные изменения маскируют причину.
Отсутствие внешней коммуникации — эскалация жалоб/PR-риск.
Закрытие без пост-мортема и действий — повторяем те же ошибки.

17) Чек-лист IC (карманная карточка)

Присвоить SEV и открыть war-room.
Назначить TL, CL, Scribe, проверить on-call присутствуют.
Включить релиз-freeze (при SEV-1+).
Подтвердить источники истины: дашборды SLI, синтетика, логи, трейсинг.
Принять быстрые митигирующие действия (откат/флаги/failover).
Обеспечить регулярные апдейты по расписанию.
Зафиксировать Criteria for Resolve и наблюдение после восстановления.
Инициировать пост-мортем и назначить владельцев action items.

18) Встраивание в ежедневные операции

Тренировки (game-days): симуляции по ключевым сценариям.
Каталог плейбуков: версионированные, протестированные, с параметрами.
Инструменты: ChatOps-команды “/declare”, “/page”, “/status”, “/rollback”.
Интеграции: тикетинг, статус-страница, пост-мортемы, CMDB/сервис-каталог.
Согласование с SLO/Error Budget: триггеры авто-эскалации и правила freeze.

19) Итог

Эскалация — это операционная дисциплина, а не просто звонок дежурному. Четкие уровни SEV, назначенный IC, готовые плейбуки, тайм-боксы обновлений и интеграция с метриками SLO и budget-политиками превращают хаотичный пожар в управляемый процесс с предсказуемым исходом — быстрым восстановлением сервиса, минимальным PR/регуляторным риском и системными улучшениями после каждого инцидента.

Эскалация инцидентов

Свяжитесь с нами

Быстрая связь

Видео скоро обновится

Мы сейчас очень загружены проектами