Оқиғалардың өршуі
1) Мақсаты мен қағидаттары
Оқыс оқиғалардың өршуі - бұл пайдаланушылар мен бизнес-метрикаға әсерді барынша азайту үшін дұрыс рөлдер мен ресурстарды жылдам тартудың басқарылатын процесі.
Негізгі қағидаттар:- Жылдамдық идеалдықтан да маңызды. Кешігуден гөрі оқиғаны ерте жариялап, деэскалациялаған дұрыс.
- Бірыңғай қолбасшылық. Шешім үшін бір жауапты - Incident Commander (IC).
- Ашықтық. Ішкі және сыртқы стейкхолдерлерге арналған нақты мәртебелер мен коммуникация арналары.
- Құжатталуы. Барлық қадамдар, шешімдер мен таймлайндар аудит және жақсарту үшін тіркеледі.
2) Күрделілік градациясы (SEV/P-деңгейлер)
Шкала мысалы (домен/юрисдикцияға бейімделіңіз):- SEV-0/P0 (сындарлы) - негізгі функцияның толық қолжетімсіздігі (логин/төлем), деректердің жылыстауы, заңдық тәуекел. Барлық on-call, freeze релиздерінің ядросының дереу пейдж.
- SEV-1/P1 (жоғары) - p95/p99 деградациясы, негізгі процестегі қателердің/істен шығулардың жоғары үлесі, өңірдің/провайдердің қолжетімсіздігі.
- SEV-2/P2 (орташа) - шектеулі когорта (өңір, провайдер) үшін ішінара тозу, айналма жол бар.
- SEV-3/P3 (төмен) - пайдаланушы үшін сыни емес, бірақ назар аударуды талап етеді (ETL фондық кідірісі, мерзімі өткен есеп).
- Зақымдану радиусы (қанша пайдаланушы/айналым) × ұзақтығы × сезімталдығы (реттегіш/PR) → SEV деңгейі.
3) KPI процесі
MTTD (табу уақыты) - инциденттің басынан бастап бірінші сигналға дейін.
MTTA (қабылдау уақыты) - сигналдан IC растауына дейін.
MTTR (қалпына келтіру уақыты) - SLO/функцияны қалпына келтіргенге дейін.
Escalation Latency - растаудан бастап қажетті рөлді/пәрменді қосуға дейін.
Reopen Rate - «шешілгеннен» кейін қайта ашылған оқыс оқиғалардың үлесі.
Comm SLA - сыртқы/ішкі жаңартулардың аралықтарын сақтау.
4) Рөлдер және жауапкершілік (RACI)
Incident Commander (IC): шешім иесі деңгейді, жоспарды, freeze, эскалацияны, деэскалацияны белгілейді. Фикстер жазбайды.
Tech Lead (TL): техникалық диагностика, гипотезалар, инженерлерді үйлестіру.
Comms Lead (CL): мәртебе беттері, клиенттік және ішкі коммуникация, Legal/PR-мен келісу.
Scribe: фактілерді, таймлайндарды, қабылданған шешімдерді дәл белгілеу.
Liaisons (байланыс): сыртқы провайдерлердің/командалардың өкілдері (төлемдер, KYC, хостинг).
On-call инженерлері: жоспарды орындау, плейбуктерді/тасылымдарды іске қосу.
Әрбір рөл бойынша кезекші кестелер мен бэкаптарды белгілеңіз.
5) Арналар мен артефактілер
War-room арнасы (ChatOps): авто-аннотация үлгісімен (нұсқалар, жалаулар, канареялар) бірыңғай үйлестіру нүктесі (Slack/Teams).
SEV-1 үшін бейнекөпір +.
Оқыс оқиғаның тегі (one-pager): ID, SEV, IC, қатысушылар, гипотеза/диагноз, қадамдар, ETA, мәртебе, импакт, графикаға сілтемелер.
Мәртебе-бет: көпшілік/ішкі; тұрақты апдейттердің кестесі (мысалы, SEV-1 + үшін әрбір 15-30 минут).
6) Тайм-бокстар және стандартты аралықтар
T0 (минут 0-5): IC тағайындалған, SEV тағайындалған, freeze релиздері (қажет болса), war-room ашық.
T + 15 мин: бірінші көпшілік/ішкі хабарлама (не қозғалды, workaround, келесі жаңартылған терезе).
T + 30/60 мин: егер тұрақты динамика болмаса, келесі деңгейдегі эскалация (платформа/БД/қауіпсіздік/провайдерлер).
Тұрақты апдейттер: SEV-0: әрбір 15 минут сайын; SEV-1: әрбір 30 минут сайын; SEV-2 +: әр сағат сайын.
7) Авто-эскалация қағидалары (іске қосу саясаты)
Код ретінде жазылады және мониторингке/алертингке қосылады:- Burn-rate бюджеттің қателері қысқа және ұзын терезелердегі шектен жоғары.
- Сыртқы сынамалар кворумы: 2 өңірдің ≥ HTTP/TLS/DNS деградациясын тіркейді.
- Бизнес-SLI (төлемдердің/тіркеулердің табысы) SLO-дан төмен түседі.
- Security-сигнатуралар: ағып кету/компромат күдігі.
- Провайдерлік сигнал: «major outage» мәртебесінің вебхук.
8) Табудан шешуге дейінгі процесс
1. Инцидент декларациясы (IC): SEV, қамту, freeze, плейбуктерді іске қосу.
2. Диагностика (TL): гипотезалар, радиусты оқшаулау (өңір, провайдер, фича), тексеру (DNS/TLS/CDN/ДБ/кэш/шина).
3. Митигиялық әрекеттер (жылдам жеңістер): бас тарту/канарейка ↓, фича-тозу жалауы, провайдердің failover, rate-limit, кэш-оверлей.
4. Коммуникация (CL): статус-бет, клиенттер/серіктестер, Legal/PR, кесте бойынша жаңартулар.
5. Қалпына келтіруді растау: сыртқы синтетика + нақты метрика (SLI), freeze алу.
6. Деэскалация: SEV төмендеуі, бақылауға өту N минут/сағат.
7. Жабу және RCA: пост-мортеманы дайындау, action items, иелері және мерзімдері.
9) Сыртқы провайдерлермен жұмыс
Бірнеше өңірлерден провайдерлерге жеке сынамалар + сұрау/қателердің айна-мысалдары.
Эскалация туралы келісімдер (байланыстар, жауаптың SLA, басымдық, мәртебенің вебхоктары).
Автоматты failover/SLO провайдері бойынша трафикті қайта бөлу.
Дәлелдеу базасы: таймлайн, sample сұраулары/жауаптары, жасырындылық/қателер кестелері, провайдердің ID тикеті.
10) Реттеуіш, қауіпсіздік және PR
Security/P0: оқшаулау, артефактілерді жинау, жария етуді барынша азайту, міндетті хабарламалар (ішкі/сыртқы/реттеуші).
Legal: сыртқы жаңартулардың тұжырымдамаларын келісу, шарттық SLA/айыппұлдарды есепке алу.
PR/Клиенттік қызмет: жауаптардың дайын үлгілері, Q&A, өтемақылар/кредиттер (егер қолданылса).
11) Хабарлама үлгілері
Бастапқы (T + 15):- "Біз [функцияны/өңірді] қозғайтын SEV-1 оқиғасын зерттеп жатырмыз. Симптомдары: [қысқаша]. Тексеріп шығу жолын іске қостық [сипаттама]. Келесі жаңарту [уақытта]"
- "Диагностика: [гипотеза/растау]. Әрекеттер: [провайдерді ауыстырыңыз/релизді қайтарыңыз/деградацияны қосыңыз]. Импакт [пайыз/қоғам] дейін төмендетілген. Келесі жаңартылым - [уақыт]"
- "Оқиға SEV-1 шешілді. Себебі: [тамыр]. Қалпына келтіру уақыты: [MTTR]. Келесі қадамдар: [фикс/тексеру/бақылау N сағат]. Пост-мортем - [қашан/қайда]"
12) Плейбуктер (шамамен)
Төлемдер табысының құлдырауы: А провайдеріне үлесті азайту, Х% -ды В-ға ауыстыру; «degrade-payments-UX» қосу; лимиттердегі ретраларды қосуға; фин-команданы хабардар ету.
p99 API өсуі: жаңа нұсқаның канарейкасын кішірейту; ауыр фичтерді сөндіру; TTL кэшін ұлғайту; БД-индекстерді/коннектілерді тексеру.
DNS/TLS/CDN проблемасы: сертификаттарды/тізбекті тексеру; жазбаны жаңарту; сақтық CDN-ге ауысу; кэшті қайта жинау.
Security-күдік: тораптарды оқшаулау, негізгі ротация, mTLS тұтқаларын қосу, артефактілерді жинау, Legal хабарламасы.
13) Деэскалация және «шешілді» критерийлері
Инцидент төмендегі деңгейге ауыстырылады, егер:- SLI/SLO жасыл аймақта тұрақты ≥ N интервал;
- регресссіз - митигациялық әрекеттер мен бақылау орындалған;
- security-сынып үшін - векторлардың жабықтығы расталды, кілттер/құпиялар ротацияланды.
Жабу - action items иелері мен мерзімдері таймлайнды белгілегеннен кейін ғана.
14) Post-mortem (тәтті емес)
Құрылымы:1. Фактілер (пайдаланушылар/метриктер көрген таймлайн).
2. Түбірлік себеп (техникалық/процестік).
3. Эскалацияда не істеді/істемеді.
4. Алдын алу шаралары (тесттер, алерттар, лимиттер, сәулет).
5. Мерзімдері мен иелерімен іс-қимыл жоспары.
6. Error budget-пен байланыс және SLO/процестерді қайта қарау.
15) Процестің жетілу өлшемдері
Пайдаланушылардың шағымдарына дейін декларацияланған оқыс оқиғалардың үлесі.
SEV деңгейлері бойынша MTTA; қажетті рөлді қосу уақыты.
Апдейт аралықтарын сақтау (Comm SLA).
Қолмен «шығармашылықсыз» плейбуктермен шешілген оқыс оқиғалардың пайызы.
action items постмортемалардан уақытында орындалуы.
16) Қарсы үлгілер
«Біреу бірдеңе жасаңыз» - IC/рөлдер жоқ.
war-room көп дауысты - әрекеттердің орнына нұсқалар туралы дау.
Кеш декларация → адамдарды жинау уақытын жоғалту.
freeze және релиздер аңдатпалары жоқ - параллель өзгерістер себебін жасырады.
Сыртқы коммуникацияның болмауы - шағымдардың күшеюі/PR-тәуекел.
Постмортемсіз және әрекеттерсіз жабу - сол қателіктерді қайталаймыз.
17) IC чек-парағы (қалта карточкасы)
- SEV тағайындау және war-room ашу.
- TL, CL, Scribe тағайындау, on-call қатысуын тексеру.
- Релиз-freeze қосу (SEV-1 + кезінде).
- Ақиқат көздерін растау: SLI дашбордтар, синтетика, логи, трейсинг.
- Жылдам митигирлейтін әрекеттерді қабылдау (кері/жалаушалар/failover).
- Кесте бойынша тұрақты жаңартуларды қамтамасыз ету.
- Criteria for Resolve және қалпына келтірілгеннен кейін бақылау.
- Пост-мортемді бастау және action items иелерін тағайындау.
18) Күнделікті операцияларға кіріктіру
Жаттығулар (game-days): негізгі сценарийлер бойынша симуляциялар.
Плейбуктер каталогы: нұсқаланған, сыналған, параметрлері бар.
Құралдар: «/declare », «/page», «/status », «/rollback».
Интеграция: тикетинг, статус-бет, пост-мортемалар, CMDB/сервис-каталог.
SLO/Error Budget-пен келісу: авто-эскалация триггерлері және freeze ережелері.
19) Қорытынды
Эскалация - бұл кезекшіге жай ғана қоңырау шалу емес, операциялық тәртіп. IC тағайындаған SEV-тің нақты деңгейлері, дайын плейбуктер, жаңартулардың тайм-бокстары және SLO және budget-саясаттардың өлшемдерімен интеграциялау хаотикалық өртті болжамды нәтижемен басқарылатын процеске айналдырады - сервисті тез қалпына келтіру, ең төменгі PR/реттеуші тәуекел және әрбір оқиғалардан кейін жүйелі жақсартулар.