GH GambleHub

Эскалация матрицасы

1) Матрицаның мақсаты

Эскалация матрицасы - оқиғалар хаостан басқарылатын процеске тез ауысуы үшін кімнің және қашан қосылатыны туралы бірыңғай ереже. Ол былай деп сұрайды:
  • SEV деңгейлері және олардың өлшемдері;
  • таймингтер (анықтау → ack → эскалация → апдейттер);
  • әрбір қадам үшін рөлдер/арналар;
  • ерекшеліктер (security және комплаенс үшін «тыныш сағаттарсыз»);
  • плейбуктері бар байлам және статус-бет.

2) Ауырлық бойынша жіктеу (SEV)

SEVИмпактМысалдарУақыт мақсаттары
SEV-0Негізгі бизнестің/деректердің толық қолжетімсіздігіӨңірлік даун, деректерді жоғалту Tier-0Declare ≤ 5 м; First Comms ≤ 10 м; MTTR — ASAP
SEV-1SLO-ның елеулі құлдырауыSLO-ға төлемдер -3%, p95> 400 мсDeclare ≤ 10 м; First Comms ≤ 15 м; Updates q=15–30 м
SEV-2Ішінара тозу/айналып өту мүмкінБір провайдер құлайды, фолбэк барDeclare ≤ 20 м; Қажетіне қарай comms
SEV-3Төмен импакт/ішкіКлиенттерге әсер етпейтін іркілістерЖария жаңартуларсыз

Домен мен SLO үшін мақсатты сандарды нақтылаңыз.

3) Базалық матрица «кім/қашан/қайда»

ОқиғаТаймингКім бастамашыКімді өршітемізАрна/құралТүсініктеме
Табу (Page)T0 → бірденМониторинг/П1П1Пейджер/чат #alerts -svcОйнатқышты автотіркеу
ACK Page≤ 5 мин (SEV-1/0)П1ПейджерЕгер ACK болмаса - авто-эскалация
No-ACK5 минПейджерП2Пейджер/дыбысОдан әрі - 5-10 минуттан кейін IC
Declare SEV-1/0≤ 10 минIC/P1Duty Manager, Comms#war -room- , мәртебе-бетFreeze релиздері
First Comms≤ 15 минComms (IC бойынша)Клиенттер/ішкі. стейкхолдерлерМәртебе-бет/пошта«Импакт-әрекет-ETA» үлгісі
Security triggerБірденSecurity IRIC, Legal, Exec#sec-war-roomquiet hours жоқ
Provider red≤ кейін 5 минVendor OwnerIC, ProductВендор арнасы/поштаSwitchover бастау
No update> 30 мин (SEV-1/0)БотIC/CommsWar-roomSLA жаңартуларын еске салу

4) Эскалацияның шешуші ағашы (мәні)

1. SLO-да расталған импакт бар ма?

→ Иә: IC тағайындау, SEV жариялау, war-room ашу.
→ Жоқ: ticket/қадағалау, пейджсіз.

2. Мерзімінде ACK бар ма?

→ Иә: плейбук бойынша жалғастырамыз.
→ Жоқ: П2 → IC → DM (уақыт бойынша таспа).

3. Security/ағып кету/PII?

→ Әрқашан Security IR + Legal, көпшілік хабарламалар келісіледі.

4. Сыртқы провайдер?

→ Vendor Owner эскалациясы, бағыттарды ауыстыру, мәртебесіндегі фикс.

5) Эскалациядағы рөлдер мен міндеттер (қысқаша)

P1 (Primary): триаж, плейбук, IC байланысы.
P2 (Secondary): бэкап, күрделі әрекеттер, контексті ұстап тұру.
IC (Incident Commander): SEV жариялайды, freeze/rollback шешеді, қарқынды сақтайды.
Duty Manager: бұғаттауды алып тастайды, ресурстарды қайта бөледі, орган шешімдерін қабылдайды.
Comms: мәртебе-бет, SLA бойынша жаңартулар.
Security IR: оқшаулау, форензия, заңды хабарламалар.
Vendor Owner: сыртқы провайдерлер, switchover/fallback.

6) Уақытша гайдтар (бағдарлар)

SEV-1/0: ACK ≤ 5 м, Declare ≤ 10 м, First Comms ≤ 15 м, Updates q=15–30 м.
Эскалациялық орман: П1 → П2 (5 м) → IC (10 м) → Duty Manager (15 м) → Exec on-call (30 м).
Security: кідіріссіз және «тыныш сағаттар», q = 15 м.

7) Маршруттау және сегменттеу

Сервис/өңір/тенант бойынша: бағыттау кілті = 'service + region + tenant'.
Зонд кворумы: 2 тәуелсіз дереккөздің (2 өңірден synthetic + RUM/бизнес-SLI) ≥ растаған кезде ғана эскалациялау.
Дедуп: ондаған симптомдардың орнына бір мастер-алерт (ДБ «қызыл» 5xx-шуды басады).

8) Ерекшеліктер мен ерекше режимдер

Security/Legal: кезектен тыс Security IR және Legal эскалациясы; жария мәтіндер тек келісу арқылы ғана.
Провайдерлер: жеке OLA/SLA матрицасы (байланыстар, уақыт белдеулері, басымдық).
Change Freeze: SEV-1/0 кезінде - релиздер мен конфигурациялардың автоматты freeze.

9) Матрицаның жетілу өлшемдері

Ack p95 (SEV-1/0) ≤ 5 мин.
Time to Declare (медиана) ≤ 10 мин.
Comms SLA Adherence ≥ 95%.
Escalation Success (П1/П2 деңгейінде шешілді) ≥ 70%.
No-ACK escalations ↓ QoQ.
Vendor Response Time шарт шегінде сындарлы провайдерлер бойынша.

10) Чек парақтары

Жедел (on-call үшін)

  • SLO импакт және әлеуетті SEV анықталған.
  • ACK жасаған және IC тағайындалған (SEV-1/0 үшін).
  • war-room ашылды, ойнатқыш бекітілді.
  • Статус-апдейт SLA бойынша жарияланды/жоспарланған.
  • freeze (қажет болса) қосылған, провайдер/қауіпсіздік күшейтілген.

Процестік (апта сайынғы review)

  • Эскалация сатысы SLA бойынша жұмыс істеді ме?
  • IC дейін артық эскалация болды ма?
  • Клиенттердің хабарламалары уақтылы және дәл ме?
  • Бұғаттағыштар болды ма (рұқсаттар, провайдерлердің контактілері, «мылқау» арна)?
  • CAPA процестің тоқтауы үшін жұмыста да іске қосылған.

11) Үлгілер

11. 1 Эскалация саясаты (YAML идеясы)

yaml policy:
sev_levels:
- id: SEV-0 declare_tgt_min: 5 first_comms_min: 10 update_cadence_min: 15
- id: SEV-1 declare_tgt_min: 10 first_comms_min: 15 update_cadence_min: 30 ack_sla_min:
default: 5 ladder:
- after_min: 5 escalate_to: "P2:oncall-<service>"
- after_min: 10 escalate_to: "IC:ic-of-the-day"
- after_min: 15 escalate_to: "DutyManager:duty"
- after_min: 30 escalate_to: "Exec:oncall-exec"
channels:
war_room: "#war-room-<service>"
alerts: "#alerts-<service>"
security: "#sec-war-room"
providers: "vendors@list"
quorum:
required_sources: 2 sources: ["synthetic:eu,us", "rum:<service>", "biz_sli:<kpi>"]
exceptions:
security: { quiet_hours: false, legal_approval_required: true }
providers: { auto_switch: true, notify_vendor_owner: true }

11. 2 «Уақыт бойынша эскалация» карточкасы (бот үшін)


T + 05m: no ACK → escalated to P2
T + 10m: no ACK/Declare → escalated to IC, war-room open
T + 15m: no Comms → reminder Comms, escalation Duty Manager
T + 30m: no Updates → IC reminder, Exec on-call CC

11. 3 Бірінші көпшілік жаңартуының үлгісі


Impact: [services/regions] affected, [symptoms e.g. delays/errors].
Reason: Investigating; confirmed by monitoring quorum.
Actions: bypass routes/restrictions are enabled, provider switching is in progress.
Next update: [time, time zone].

12) Интеграция

Alert-as-Code: әрбір Page ережесі дәл бір ойнатқышқа сілтеме жасайды және өзінің эскалация матрицасын біледі.
ChatOps: '/declare sev1 ', '/page p2', '/status update ', апдейт авто-таймерлері.
CMDB/Каталог: сервисте - иелері, on-call, матрица, провайдерлер, арналар.
Status page: SEV-1/0 үлгілері, жаңартулар тарихы, RCA сілтемелері.

13) Қарсы үлгілер

«Барлығын бірден эскалациялаймыз» → шу және бұлыңғыр жауапкершілік.
IC/war-room жоқ - шешімдер чат арқылы таралады.
Бірінші жаңартудың кешігуі - шағымдар мен PR-тәуекелдердің өсуі.
Security үшін ерекшеліктердің болмауы - заңдық тәуекелдер.
Иесіз және контактісіз сыртқы провайдерлер.
Баспалдақ автоматтандырылмаған - бәрі де «тұтқада».

14) Енгізудің жол картасы (3-5 апта)

1. Нед. 1: SEV-критерийлер мен таймингтерді бекіту; рөлдердің/провайдерлердің байланыстарын жинау; арналарды таңдау.
2. Нед. 2: Саясатты сипаттау (YAML), Alert-as-Code-ге байланыстыру, пейджер/ботта кесіндіні қосу.
3. Нед. 3: 2-3 сындарлы сервистерде ұшқыш; Comms SLA және үлгілерін баптау.
4. Нед. 4-5: қабатын кеңейту, апта сайынғы Escalation Review және жетілу метрикасын енгізу.

15) Қорытынды

Эскалация матрицасы - бұл оқыс оқиғалардың операциялық Конституциясы: кім, қашан және қалай қосылады. Нақты SEV, таймингтер, арналар, security ерекшеліктері және плейбуктер мен статус-парақпен интеграциясы бар команда жылдам, үйлесімді және ашық әрекет етеді, ал пайдаланушылар болжамды жаңартуларды және сервистің сенімді қалпына келуін көреді.

Contact

Бізбен байланысыңыз

Кез келген сұрақ немесе қолдау қажет болса, бізге жазыңыз.Біз әрдайым көмектесуге дайынбыз!

Интеграцияны бастау

Email — міндетті. Telegram немесе WhatsApp — қосымша.

Сіздің атыңыз міндетті емес
Email міндетті емес
Тақырып міндетті емес
Хабарлама міндетті емес
Telegram міндетті емес
@
Егер Telegram-ды көрсетсеңіз — Email-ге қоса, сол жерге де жауап береміз.
WhatsApp міндетті емес
Пішім: +ел коды және номер (мысалы, +7XXXXXXXXXX).

Батырманы басу арқылы деректерді өңдеуге келісім бересіз.