Оқиғалардың симуляциялары
1) Неге симуляциялар жүргізу керек
Инциденттерді симуляциялау - бұл команда нақты плейбуктер бойынша анықтау, диагностикалау, эскалациялау және қалпына келтіруді пысықтайтын қауіпсіз жаттығулар. Олар:- MTTD/MTTA/MTTR төмендетеді, қайтулар мен фейловердерге сенімділікті арттырады;
- процестердегі кемшіліктерді (эскалация, коммуникациялар) және сәулеттік әлсіздіктерді анықтайды;
- RCA → CAPA кірісі ретінде қызмет етеді және құжаттаманы жақсартады (runbook/SOP);
- SLA/реттеуіштер/аудит талаптарына дайындығын растайды.
2) Симуляция пішімдері
Tabletop (үстел) - тақтада/чатта сөйлесу сценарийі: арзан, жылдам, рөлдер мен коммуникацияларды пысықтау үшін өте жақсы.
Game Day (шектеулері бар стейджердегі/өнімдегі жаттығулар) - плейбуктер бойынша практикалық қадамдар; сынамада - тек қауіпсіз, нақты гейтпен кері қайтарылатын әрекеттер.
Chaos Engineering - тұрақтылықты және SLO-гейттерді тексеру үшін басқарылатын іркілістер (тәуелділіктерді/желілерді/тораптарды ажырату).
DR-жаттығулар (Disaster Recovery) - AZ/аймақтан бас тарту, бэкаптардан қалпына келтіру, провайдерлерді ауыстырып қосу.
Comms-drill - таза коммуникация: мәртебе-бет, хабарлама үлгілері, PR/Legal.
3) Рөлдер мен жауапкершілік
Incident Commander (IC) - шешім қабылдайды, жоспарды, деэскалацияны жүргізеді.
Tech Lead (TL) - диагностика, техникалық «инжектілер» және гипотезалар.
Comms Lead (CL) - ішкі/сыртқы жаңартулар, мәртебе-бет.
Scribe - хаттама (таймлайн, әрекеттер, шешімдер, артефактілер).
Observers/Assessors - өлшемдерін және рәсімдерге сәйкестігін белгілейді.
Red Team (қалауы бойынша) - күтпеген «инжектілерді» енгізеді.
4) Симуляцияның жетістік өлшемдері
Синтетикалық оқиға бойынша MTTD/MTTA/MTTR.
Comm SLA: жаңартулардың уақтылығы мен сапасы.
SLO-guardrails: burn-rate дұрыс реакциясы, сыртқы сынамалар кворумы.
Runbook fidelity:% қадамдар құжат бойынша орындалды, импровизациясыз.
Escalation latency: қажетті рөлді/провайдерді қосу жылдамдығы.
Checklists pass-rate: «дайын/қабылданды/жабылды».
Noise & Fatigue: артық алерталар, on-call қайта тиеу.
CAPA completion: симуляциядан кейін орындалған әрекеттер үлесі.
5) Дайындық: басталғанға дейін не қажет
Мақсаты мен гипотезалары: не тексереміз (процестер, сәулет, адамдар).
Сценарий және «инжектілер»: симптомдардың/оқиғалардың таймингпен бірізділігі.
Қауіпсіздікті шектеу: қайтарымсыз өзгерістерге тыйым салу; болдырмау нүктелері.
Деректер мен стендтер: синтетикалық трафик, тозу фич-жалаулары, қауіпсіз кілттер.
Құжаттар: runbook/SOP сілтемелері, эскалация, провайдерлердің байланыс парағы.
Бақылануы: алдын ала белгіленген дашбордтар/алерттар, test-канареялар.
Логистика: уақыт/ұзақтық, қатысушылар, war-room арнасы, жазба.
6) Симуляция жүргізу: кезеңдер
1. Brief (5-10 мин): IC мақсаттарды, рөлдерді, қауіпсіздік ережелерін, аяқталу критерийлерін еске салады.
2. T0 - Симптомдар инжектісі: алерт, бизнес-SLI құлдырауы, провайдердің сыртқы мәртебесі.
3. Триаж және эскалация: SEV, freeze релиздерін беру, қажетті рөлдерді қосу.
4. Диагностика: гипотезалар, DNS/TLS/CDN/БД/кэш/шиналарды тексеру, релиздер аңдатпалары.
5. Митигирлеуші әрекеттер: бас тарту/канарейка ↓, тозу фича-жалаулары, провайдердің failover, лимиттер/ретрайлер.
6. Коммуникация: тұрақты апдейттер (формат: Импакт → Диагностика → Әрекеттер → Ізі. апдейт).
7. Қалпына келтіру және верификациялау: N интервалдың жасыл аймағында сыртқы синтетика + SLI.
8. Debrief (AAR): 15-30 мин - фактілер, қорытындылар, CAPA.
7) Сценарий үлгілері (каталог)
Төлемдер табысының құлдырауы: провайдер А бір елде нашарлайды; күтілетін әрекеттер - трафикті қайта бөлу, оңайлатылған UX қосу, коммуникация.
DNS жаңылысы: жазу/TTL қатесі, кейбір пайдаланушылар доменді толтырмайды; күтілетін қадамдар - фикстер/фолбэк, CDN тазарту, статус-апдейттер.
Мерзімі өткен TLS сертификаты: ескі клиенттер үшін қол қысу бұзылады; тізбекті авариялық ұзарту және тексеру күтілуде.
Kafka lag: KYC/AML оқиғаларында кідірістің өсуі; күту - консьюмерлерді масштабтау, продюсерлерді шектеу.
БД p99 ↑ және өсуі 5xx: тар индекстер, коннектілер лимиті; күту - фича-жалаулар, лимиттер, hotfix/кері шегіну.
Аймақтық істен шығу: AZ/PoP ажырату; күту - GSLB/Anycast ауыстырып қосу, деректерді тексеру және SLO.
Коммуникациялық Drill: барлығы «жасыл», бірақ үлгілерді, аралықтарды және Legal/PR-мен келісуді тексереміз.
8) «Инжектінің» үлгісі (карточка)
ID: INJ-2025-11-01-01
Purpose: Verification of failover payments and comms SLA
Trigger T0: 30% reduction in transaction success in the TR region (alert SLI + burn rate)
Signals: 5xx growth in payment API, external status PSP-A = partial outage
Expected actions: reduction of the share on PSP-A to 30%, inclusion of degrade-payments-UX, status update 15 min
Success criteria: success of payments ≥ 98% in 30 minutes, two green SLI intervals
NOTAM (security): prohibition of direct database edits; flags/routing only
9) Қауіпсіздік және комплаенс
Прод-симуляциялар - тек кері қайтарылатын: фич-жалаулар, трафикті шағын үлестермен ауыстырып қосу, оқуға арналған репликалар, «shadow traffic».
Қолжетімділікті бақылау/аудит: барлық әрекеттер ChatOps/пайплайн арқылы; өзгермейтін қоймадағы журналдар.
PII/құпиялар - оқу артефактілерінде пайдаланылмайды; деректер дербестендірілген.
Реттеуші: егер симуляция клиенттік коммуникацияларды қозғаса - жеке арналардағы «оқу» белгісі; жария бекеттер имитацияланбайды.
10) Бағалау және AAR → RCA → CAPA
AAR (After Action Review) - жаттығудан кейін бірден: не күткен/не жұмыс істегенін/істемегенін көрді.
RCA - RCA үлгісі бойынша елеулі сәтсіздіктер үшін (мысалы, эскалация іске аспады).
CAPA - эффект иелерімен/мерзімдерімен/өлшемдерімен іс-қимылдар тізімі (плейбуктердегі, алерталардағы, сәулеттегі өзгерістер).
Бақылау нүктелері - D + 14/D + 30: орындалуын тексеру, осал жерлер бойынша қайталама шағын дриль.
11) Құжаттама және артефактілер
Симуляция жоспары: мақсаттар, сценарий, инжектілер, қатысушылар, терезелер, жетістік критерийлері.
Таймлайн (UTC): T0...Tn, IC шешімдері, техникалық қадамдар, жаңартулар.
Дашбордтардың/логтардың суреттері, алерталар мен мәртебелердің ұстамдары.
Қорытынды есеп: метриктер, плейбуктермен айырмашылықтар, CAPA.
Құжаттама жаңартулары: runbook/SOP/контактілерді түзету, жаңа дашбордтарға сілтемелер.
12) Жиілік және қамту
Tabletop: айына 2-4 рет (негізгі ағындар мен рөлдер бойынша).
Game Days стейджде: айына 1-2 рет.
Chaos-кейстер (прод-лайт): тоқсан сайын, қатаң түрде гейт бойынша.
DR-жаттығулар: нақты ауыстырып қосумен жылына 1-2 рет.
Comms-drill: шаблондар мен SLA жаңартуларын жаттықтыру үшін ай сайын.
13) Чек парақтары
Симуляциялау алдында
- Сценарий, «инжектілер», жетістік критерийлері, қауіпсіздік терезелері.
- Рөлдер, арналар, үлгілердің мәртебесі келісілді.
- Стендтердің/жалаулардың/дашбордтардың қол жетімділігі тексерілді.
- Күшін жою және қайтарымдылық жоспары құжатталған.
- Тәуекелдер және SLO/клиенттерге әсері бағаланды.
- SEV берілген, freeze релиздері (қажет болса).
- Кесте бойынша коммуникация, формат сақталған.
- Барлық әрекеттер аудит құралдары арқылы.
- Scribe хаттама жүргізеді, артефактілерді жинайды.
- Қауіпсіздік: тыйым салулар/шектеулер сақталады.
- AAR жүргізілді, есеп сақталды.
- RCA (сәтсіз болғанда) бастамашысы.
- CAPA иелерімен/мерзімдерімен ресімделген.
- runbook/SOP/контактілер жаңартылды.
- Осал жерлерге ретест жоспарланған.
14) Қарсы үлгілер
«Жоспардың орнына импровизация» - жетістік сценарийі мен өлшемдері жоқ.
Гейтсіз және жою жоспарынсыз тәуекелдер - оқу-жаттығулар инцидентке айналады.
Тек техниканы коммуникациясыз және эскалациясыз өңдеу.
AAR/RCA болмауы - команда оқымайды.
Бақылаусыз және SLO-гардрейларсыз прод-хаос.
Мөлдір емес құқықтар: өнімдегі жасырын қолмен түзетулер.
15) Шағын үлгілер
Күн тәртібі Game Day (60-90 мин)
1. Brief (5 мин) → Мақсаттары, рөлдері, қауіпсіздігі.
2. Сценарий T0 (5 мин) → Симптомдарды беру.
3. Триаж/эскалация (10 мин).
4. Диагностика + әрекеттер (30-45 мин) - 1-2 «инжектілер».
5. Қалпына келтіру және верификациялау (10 мин).
6. AAR (15 мин) - қорытындылар, CAPA.
AAR үлгісі (қысқа)
What was expected:
What happened:
What worked:
What didn't work:
Solutions and why:
Actions (CAPA) with deadlines:
Responsible persons:
Retest Date:
16) Жиынтық
Оқиғалардың симуляциясы - адамдарға, процестер мен сәулетке арналған «тренажер». Тұрақты, қауіпсіз және өлшенетін жаттығулар дағдарысты тәртіпке айналдырады: команда жылдам әрекет етеді, ойнатқыштар шынайы жұмыс істейді, сәулет тұрақтырақ, ал реттеуші мен клиенттер операциялық функцияның жетілгендігін көреді. Ең бастысы - нақты мақсаттар, қауіпсіз гейттер, жақсы метриктер және міндетті AAR → RCA → CAPA.