Эскалация матрицасы
1) Матрицаның мақсаты
Эскалация матрицасы - оқиғалар хаостан басқарылатын процеске тез ауысуы үшін кімнің және қашан қосылатыны туралы бірыңғай ереже. Ол былай деп сұрайды:- SEV деңгейлері және олардың өлшемдері;
- таймингтер (анықтау → ack → эскалация → апдейттер);
- әрбір қадам үшін рөлдер/арналар;
- ерекшеліктер (security және комплаенс үшін «тыныш сағаттарсыз»);
- плейбуктері бар байлам және статус-бет.
2) Ауырлық бойынша жіктеу (SEV)
Домен мен SLO үшін мақсатты сандарды нақтылаңыз.
3) Базалық матрица «кім/қашан/қайда»
4) Эскалацияның шешуші ағашы (мәні)
1. SLO-да расталған импакт бар ма?
→ Иә: IC тағайындау, SEV жариялау, war-room ашу.
→ Жоқ: ticket/қадағалау, пейджсіз.
2. Мерзімінде ACK бар ма?
→ Иә: плейбук бойынша жалғастырамыз.
→ Жоқ: П2 → IC → DM (уақыт бойынша таспа).
3. Security/ағып кету/PII?
→ Әрқашан Security IR + Legal, көпшілік хабарламалар келісіледі.
4. Сыртқы провайдер?
→ Vendor Owner эскалациясы, бағыттарды ауыстыру, мәртебесіндегі фикс.
5) Эскалациядағы рөлдер мен міндеттер (қысқаша)
P1 (Primary): триаж, плейбук, IC байланысы.
P2 (Secondary): бэкап, күрделі әрекеттер, контексті ұстап тұру.
IC (Incident Commander): SEV жариялайды, freeze/rollback шешеді, қарқынды сақтайды.
Duty Manager: бұғаттауды алып тастайды, ресурстарды қайта бөледі, орган шешімдерін қабылдайды.
Comms: мәртебе-бет, SLA бойынша жаңартулар.
Security IR: оқшаулау, форензия, заңды хабарламалар.
Vendor Owner: сыртқы провайдерлер, switchover/fallback.
6) Уақытша гайдтар (бағдарлар)
SEV-1/0: ACK ≤ 5 м, Declare ≤ 10 м, First Comms ≤ 15 м, Updates q=15–30 м.
Эскалациялық орман: П1 → П2 (5 м) → IC (10 м) → Duty Manager (15 м) → Exec on-call (30 м).
Security: кідіріссіз және «тыныш сағаттар», q = 15 м.
7) Маршруттау және сегменттеу
Сервис/өңір/тенант бойынша: бағыттау кілті = 'service + region + tenant'.
Зонд кворумы: 2 тәуелсіз дереккөздің (2 өңірден synthetic + RUM/бизнес-SLI) ≥ растаған кезде ғана эскалациялау.
Дедуп: ондаған симптомдардың орнына бір мастер-алерт (ДБ «қызыл» 5xx-шуды басады).
8) Ерекшеліктер мен ерекше режимдер
Security/Legal: кезектен тыс Security IR және Legal эскалациясы; жария мәтіндер тек келісу арқылы ғана.
Провайдерлер: жеке OLA/SLA матрицасы (байланыстар, уақыт белдеулері, басымдық).
Change Freeze: SEV-1/0 кезінде - релиздер мен конфигурациялардың автоматты freeze.
9) Матрицаның жетілу өлшемдері
Ack p95 (SEV-1/0) ≤ 5 мин.
Time to Declare (медиана) ≤ 10 мин.
Comms SLA Adherence ≥ 95%.
Escalation Success (П1/П2 деңгейінде шешілді) ≥ 70%.
No-ACK escalations ↓ QoQ.
Vendor Response Time шарт шегінде сындарлы провайдерлер бойынша.
10) Чек парақтары
Жедел (on-call үшін)
- SLO импакт және әлеуетті SEV анықталған.
- ACK жасаған және IC тағайындалған (SEV-1/0 үшін).
- war-room ашылды, ойнатқыш бекітілді.
- Статус-апдейт SLA бойынша жарияланды/жоспарланған.
- freeze (қажет болса) қосылған, провайдер/қауіпсіздік күшейтілген.
Процестік (апта сайынғы review)
- Эскалация сатысы SLA бойынша жұмыс істеді ме?
- IC дейін артық эскалация болды ма?
- Клиенттердің хабарламалары уақтылы және дәл ме?
- Бұғаттағыштар болды ма (рұқсаттар, провайдерлердің контактілері, «мылқау» арна)?
- CAPA процестің тоқтауы үшін жұмыста да іске қосылған.
11) Үлгілер
11. 1 Эскалация саясаты (YAML идеясы)
yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }
11. 2 «Уақыт бойынша эскалация» карточкасы (бот үшін)
T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC
11. 3 Бірінші көпшілік жаңартуының үлгісі
Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].
12) Интеграция
Alert-as-Code: әрбір Page ережесі дәл бір ойнатқышқа сілтеме жасайды және өзінің эскалация матрицасын біледі.
ChatOps: '/declare sev1 ', '/page p2', '/status update ', апдейт авто-таймерлері.
CMDB/Каталог: сервисте - иелері, on-call, матрица, провайдерлер, арналар.
Status page: SEV-1/0 үлгілері, жаңартулар тарихы, RCA сілтемелері.
13) Қарсы үлгілер
«Барлығын бірден эскалациялаймыз» → шу және бұлыңғыр жауапкершілік.
IC/war-room жоқ - шешімдер чат арқылы таралады.
Бірінші жаңартудың кешігуі - шағымдар мен PR-тәуекелдердің өсуі.
Security үшін ерекшеліктердің болмауы - заңдық тәуекелдер.
Иесіз және контактісіз сыртқы провайдерлер.
Баспалдақ автоматтандырылмаған - бәрі де «тұтқада».
14) Енгізудің жол картасы (3-5 апта)
1. Нед. 1: SEV-критерийлер мен таймингтерді бекіту; рөлдердің/провайдерлердің байланыстарын жинау; арналарды таңдау.
2. Нед. 2: Саясатты сипаттау (YAML), Alert-as-Code-ге байланыстыру, пейджер/ботта кесіндіні қосу.
3. Нед. 3: 2-3 сындарлы сервистерде ұшқыш; Comms SLA және үлгілерін баптау.
4. Нед. 4-5: қабатын кеңейту, апта сайынғы Escalation Review және жетілу метрикасын енгізу.
15) Қорытынды
Эскалация матрицасы - бұл оқыс оқиғалардың операциялық Конституциясы: кім, қашан және қалай қосылады. Нақты SEV, таймингтер, арналар, security ерекшеліктері және плейбуктер мен статус-парақпен интеграциясы бар команда жылдам, үйлесімді және ашық әрекет етеді, ал пайдаланушылар болжамды жаңартуларды және сервистің сенімді қалпына келуін көреді.