Эскалация матрицасы
1) Матрицанын максаты
Эскалация матрицасы - бул инциденттерди башаламандыктан башкарылуучу процесске тез которуу үчүн ким жана качан кошулган бирдиктүү эрежелер. Ал сурайт:- SEV деңгээлдери жана алардын критерийлери;
- таймингдер (аныктоо → ack → эскалация → апдейт);
- ар бир кадам үчүн ролдорду/каналдарды;
- өзгөчөлүктөр (security жана комплаенс үчүн "тынч саат" жок);
- плейбуктар жана статус-беттер менен байланыш.
2) Оордук боюнча классификация (SEV)
домен жана SLO үчүн максаттуу сандарды тактоо.
3) Негизги матрица "ким/качан/кайда"
4) Эскалациянын чечүүчү дарагы (маңызы)
1. SLO боюнча тастыкталган таасир барбы?
→ Ооба: IC дайындоо, SEV жарыялоо, war-room ачуу.
→ Жок: ticket/байкоо, пейдж жок.
2. убагында ACK бар?
→ Ооба: playbook боюнча улантуу.
→ Жок: П2 → IC → DM (убакытка).
3. Коопсуздук/агып/PII?
→ Ар дайым коопсуздук IR + мыйзамдуу, коомдук билдирүүлөр шайкеш келет.
4. Тышкы провайдер?
→ Vendor Owner эскалациясы, каттамдарды которуу, статустагы fix.
5) Эскалация ролу жана милдеттери (кыска)
P1 (Primary): triage, playbook баштоо, IC менен байланыш.
P2 (Secondary): арткы, татаал иш-аракеттер, контекстти сактоо.
IC (Incident Commander): SEV жарыялайт, freeze/rollback чечет, темп кармап турат.
Duty Manager: кулпусун алып, ресурстарды кайра бөлүштүрөт, орг-чечимдерди кабыл алат.
Comms: статус-бет, SLA боюнча апдейттер.
Коопсуздук IR: изоляция, форензия, юридикалык билдирүүлөр.
Vendor Owner: тышкы провайдерлер, switchover/fallback.
6) Убактылуу гайддар
SEV-1/0: ACK ≤ 5 м, Declare ≤ 10 м, First Comms ≤ 15 м, Updates q=15–30 м.
Эскалация тилкеси: П1 → П2 (5 м) → IC (10 м) → Duty Manager (15 м) → Exec on-call (30 м).
Security: эч кандай кечигүү жана "тынч саат", апдейт q = 15 м.
7) Багыттоо жана сегменттөө
Кызмат/аймак/тенант боюнча: багыттоо ачкычы = 'service + region + tenant'.
Кворум зонд: 2 көз карандысыз булактардын (2 аймактан synthetic + RUM/бизнес-SLI) ≥ тастыкталганда гана күчөтүү.
Dedup: ордуна бир мастер-алерт ондогон белгилери (DD "кызыл" 5xx-ызы басат).
8) Өзгөчөлүктөр жана өзгөчө режимдер
Security/Legal: Security IR жана Legal кезексиз күчөшү; коомдук тексттер макулдашуу аркылуу гана.
Провайдерлер: өзүнчө OLA/SLA матрицасы (байланыштар, убакыт алкактары, артыкчылык).
Change Freeze: SEV-1/0 - автоматтык freeze релиздер жана конфигурациялар.
9) Матрицанын жетилүү метрикасы
Ack p95 (SEV-1/0) ≤ 5 мин.
Time to Declare (медиана) ≤ 10 мин.
Comms SLA Adherence ≥ 95%.
Escalation Success (П1/П2 денгээлде чечилет) ≥ 70%.
No-ACK escalations ↓ QoQ.
Vendor Response Time келишим ичинде маанилүү провайдерлер боюнча.
10) Чек баракчалары
Оперативдүү (on-call үчүн)
- SLO жана потенциалдуу SEV боюнча импакт аныкталган.
- ACK тарабынан жасалган жана IC дайындалган (SEV-1/0 үчүн).
- Ачык war-room, playbook тиркелет.
- Статус-апдейт жарыяланган/SLA пландаштырылган.
- freeze кирет (керек болсо), күчөтүлгөн камсыздоочу/коопсуздук.
Processing (жума сайын карап чыгуу)
- Эскалация тепкич SLA боюнча иштеген?
- IC үчүн кошумча эскалация болгон жокпу?
- Кардарлардын билдирүүлөрү өз убагында жана так?
- Блокаторлор (жеткиликтүүлүк, провайдерлердин байланыштары, "үнсүз" канал) бар беле?
- Процесстин бузулушу үчүн CAPA да ишке киргизилген.
11) Үлгүлөр
11. 1 Эскалация саясаты (YAML идеясы)
yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }
11. 2 Карта "убакыттын эскалациясы" (бот үчүн)
T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC
11. 3 Биринчи коомдук жаңылануунун үлгүсү
Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].
12) Интеграция
Alert-as-Code: Ар бир Page эрежеси так бир ойнотмо сөз жана эскалация матрицасын билет.
ChatOps: команда '/declare sev1 ', '/page p2', '/status update ', auto-таймери updates.
CMDB/Каталог: сервисте - ээлери, on-call, матрица, провайдерлер, каналдар.
Status page: SEV-1/0 үчүн шаблондор, жаңылыктардын тарыхы, RCA шилтемелери.
13) Анти-үлгүлөрү
"Баарын бир эле учурда эскалациялайбыз" → ызы-чуу жана бүдөмүк жоопкерчилик.
Жок IC/war-room - чечимдер чаттар аркылуу тарайт.
Биринчи жаңылануунун кечеңдеши - даттануулардын жана PR тобокелдиктердин өсүшү.
security үчүн өзгөчөлүктөрдүн жоктугу - юридикалык тобокелдиктер.
Ээси жана байланыштары жок тышкы провайдерлер.
Тепкич автоматташтырылган эмес - баары "сабында".
14) Жол картасы киргизүү (3-5 жума)
1. Нед. 1: SEV критерийлерин жана таймингдерди бекитүү; ролдорду/провайдерлердин байланыштарын чогултуу; каналдарды тандоо.
2. Нед. 2: саясатты сүрөттөп (YAML), Alert-as-Code байлап, пейджер/бот бир тизе күйгүзүү.
3. Нед. 3: 2-3 маанилүү кызмат пилоттук; Comms SLA жана шаблондорду чечүү.
4. Нед. 4-5: камтууну кеңейтүү, жумалык Эскалация Review жана жетилүү метрикасын киргизүү.
15) Жыйынтык
Эскалация матрицасы - бул инциденттердин операциялык Конституциясы: ким, качан жана кантип кошулат. Так SEV, таймингдер, каналдар, security үчүн өзгөчөлүктөр жана плейбуктар жана статус-беттер менен интеграция менен команда тез, ынтымактуу жана ачык-айкын жооп берет, ал эми колдонуучулар болжолдонгон жаңыланууларды жана ишенимдүү калыбына келтирүү кызматын көрүшөт.