Инциденттен кейінгі талдаулар
1) Инциденттен кейінгі талдаулар не үшін қажет
Инциденттен кейінгі талдау (post-mortem/AAR) - бұл істен шыққаннан кейін ұйымды оқытудың құрылымдалған процесі. Мақсаты - кінәлі адамдарды іздеу емес, негізгі және ықпал ететін себептерді анықтау және қайталану қаупін және инциденттердің құнын төмендететін өлшенетін әрекеттерді (CAPA) бекіту, SLO, MTTR және клиенттердің/реттеушілердің сенімін жақсарту.
2) Қағидаттар (Just Culture)
Айыптаусыз: персоналды емес, жүйелерді, шешімдерді және контекстті талдаймыз.
Фактілер пікірлерден де маңызды: таймлайн, логи, метрика, трейстер, өзгерістер артефактілері.
E2E-көзқарас: клиенттегі симптомдардан ішкі тәуелділікке және сыртқы провайдерлерге дейін.
Тексерілетіндігі: әрбір гипотеза эксперимент/деректермен расталады.
Циклдің тұйықталуы: талдау → CAPA → бақылау нүктелері → ретест.
3) Талдау қашан және қандай пішімдер болады
Міндетті: SEV-0/1; SLA/реттеу талаптарын бұзу; деректердің жылыстауы; маңызды PR-тәуекел.
Жеделдетілген (light): елеулі әсері немесе қайталанатын симптомдары бар SEV-2.
Коммуникациялық AAR: егер жаңылыс статус-бетті/қолдауды қозғаса, SLAs жаңартуларын және хабарламалардың сапасын тексереміз.
Мерзімі: жоба 48-72 сағат бұрын, соңғы нұсқасы - 5 жұмыс күніне дейін (егер басқаша айтылмаса).
4) Рөлдер мен жауапкершілік
Талдау иесі (RCA Lead): процесті ұйымдастырады, кездесуді жүргізеді, есептің және CAPA сапасына жауап береді.
Incident Commander (IC): оқиға фактологиясын және шешімдерді ұсынады.
Tech Leads (жүйелер бойынша): артефактілерді растайтын себептерді талдау.
Comms/Support/Legal: коммуникацияларды және комплаенс талаптарын бағалау.
Scribe: хаттама, дәлелдерді жинау, құрылымын сақтау.
Өнім/бизнес стейкхолдерлері: клиенттерге әсері/айналымы, CAPA басымдығы.
5) Дайындық: кездесуге дейін не жинау керек
Таймлайн (UTC): T0 анықтау → Tn қалпына келтіру; релиздер/фич-жалаулар/конфигалар, провайдерлер мәртебесі.
Бақылау деректері: SLI/SLO, error-rate, перцентиль, логи, трассировка, скриншоттар графиктері.
Өзгерістер контексі: PR/деплойға сілтемелер, ДБ көші-қоны, фич-жалаулар, жұмыс жоспарлары.
Импакт: қозғалған когорттар/өңірлер/провайдерлер, тоқтап тұрған минуттар, SLA бойынша кредиттер.
Коммуникациялар: статус-парақтағы жоба жазбалар/посттар, саппорттың жауаптары, ішкі аңдатпалар.
Саясат/плейбуктер: ауытқулар болған процесс бойынша не болуы тиіс.
6) Талдау әдістемелері (комбинацияны таңдаңыз)
5 Why: себеп тізбегін жылдам ашу (тәуекел - шамадан тыс жеңілдету).
Исикава диаграммасы (Fishbone): People/Process/Platform/Policy/Partner/Product.
Fault Tree Analysis (FTA): оқиғадан көптеген себептерге дейін дедукция (AND/OR).
Change Analysis: оқиға кезінде не өзгерді vs тұрақты жағдай.
Causal Graph: күрделі микросервистер мен сыртқы тәуелділіктер үшін себеп-салдарлық байланыстар бағаны.
Human Factors Review: шаршау, ақпараттық шу, өзекті емес runbook '.
7) Есептің құрылымы (үлгі)
1. Түйіндеме (Executive Summary): не, қашан, кімге әсер етті, қорытынды мәртебесі.
2. Импакт: SLI/SLO, пайдаланушылар, аймақтар/провайдерлер, ең аз кідіріс, қаржылық/реттеуші әсерлер.
3. Таймлайн (UTC): негізгі оқиғалар, релиздер, IC шешімдері, коммуникациялар.
4. Бақылаулар және деректер: графиктер, логтар, трейстер, конфигурациялар/схемалар диффалары.
5. Гипотезалар және тексерулер: қабылданған/қабылданбаған, эксперименттерге/симуляцияларға сілтемелер.
6. Түбірлік себептер: жүйелі/процестік/техникалық (айқын тұжырымдар).
7. Ықпал ететін факторлар: неге бұрын байқамадыңыз/тоқтатпадыңыз.
8. Не істеді/не істемеді: процестер, құралдар, адамдар.
9. CAPA: табыстың иелерімен/мерзімдерімен/өлшемдерімен түзету және ескерту шаралары.
10. Верификация жоспары: D + 14/D + 30 бақылау нүктелері, жабу критерийлері.
11. Сыртқы жақтарға арналған нұсқалар: клиенттік/реттегіш (сезімтал деректерсіз).
12. Қосымшалар: артефактілер, тикеттерге/PR сілтемелер, дашбордтардың скриншоттары.
8) CAPA: әрекетті қалай жұмыс істеуге болады
Әрбір әрекеттің иесі, мерзімі және KPI әсері бар (мысалы, change-failure-rate X% -ға төмендеуі, 90 күнді нөлдік қайталау, ең жоғары деңгейде burn-rate азаюы).
Corrective (түзету) және Preventive (болдырмау) шараларын бөліңіз.
policy-as-code: алерттар, SLO-гейттер, автоскейл/лимиттер, GitOps.
CAPA апта сайынғы операциялық кездесулерде шолулары бар көпшілік бэклогына түседі.
9) Әсерді тексеру және жабу
Бақылау нүктелері: D + 7 (аралық), D + 14/D + 30 (негізгі), D + 90 (жиынтық).
Верификация: тестілер/симуляциялар (game day), shadow-трафик, байқалушылық (жасыл аймақта тұрақты SLI), рецидивтердің болмауы.
Жабу CAPA және расталған метриктер орындалған кезде ғана мүмкін болады.
10) Коммуникация және комплаенс
Ішкі: азық-түлік/қолдау/менеджмент үшін түсінікті мәртебе, SLA жаңартулары сақталған.
Сыртқы: статус-бет, клиенттерге/серіктестерге тарату; айыптаусыз тіл, алдын алудың нақты жоспары.
Реттеуіш: хабарлау мерзімдері, мысалдарды деперсонализациялау, есептер мен артефактілерді өзгеріссіз сақтау.
11) Процестің жетілу өлшемдері
Есепті жариялау уақыты: факт vs SLA (мысалы, ≤ 5 жұмыс күні).
CAPA completion rate: мерзімінде жабылған әрекеттер%.
Reopen rate: 90 күнде қайталанатын инциденттердің үлесі.
Жүйелік себептердің үлесі vs «адам қатесі».
Алерт-гигиена: жалған пейджерлерді азайту, runbook-пен қамтылған алерттердің өсуі.
DORA метрикасын өзгерту: MTTR, change-failure-rate дейін/кейін.
12) Чек парақтары
Талдау алдында
- RCA иесі және қатысушылар құрамы анықталды.
- Таймлайн және артефактілер (логтар/графиктер/релиздер/жалаулар) жиналды.
- Импакт қоғам/өңір/провайдерлер бойынша бағаланды.
- «Импакт» және «Таймлайн» бөлімдерінің жобалары дайындалды.
- Релевантты саясат/плейбуктер іс жүзіндегі әрекеттермен салыстырылған.
- Қабылданған/қабылданбаған гипотезалар мен негіздер тіркелді.
- Түбірлі және ықпал ететін себептер анықталды.
- KPI және мерзімдері бар CAPA-жоспары қалыптастырылды.
- Сыртқы тараптар үшін есептің нұсқалары келісілді (қажет болған жағдайда).
- Есеп мерзімінде жарияланды, рөлдер бойынша қол жетімділік.
- CAPA бэклогқа енгізілген, иелері расталған.
- Тексеру үшін бақылау нүктелері мен шағын симуляция тағайындалды.
- runbook/SOP/алерта/құжаттама жаңартылды.
13) Қарсы үлгілер
«Кінәлі адам X» - жүйелік себептерсіз → қайталау.
CAPA-сыз немесе иесіз/мерзімсіз есеп - қағаз үшін қағаз.
Фактілер/артефактілер жоқ - сезімде тұжырымдар.
Тым ортақ тіл («ДБ жүктеу») нақты өзгеріссіз.
Коммуникация мен комплаенсті елемеу - бедел тәуекелі.
Эффектілерді тексермей жабу - бір аптадан кейін қайталану.
14) Шағын үлгілер
Есеп бүркемесі
Incident: INC-2025-10-31 (SEV-1)
Window: 2025-10-31 18: 05-18: 47 UTC
Owner of the analysis: @ rca-lead
Affected: EU region, payments (success -28% peak)
Status: corrected; 48 hours monitoring
Түбірлік себептердің тұжырымдамасы (мысал)
CAPA (үзік)
PSP-A-ға canary-маршруттауды қосу (1% → 5% → 25%), иесі: @payments -tl, дейін: 2025-11-07, KPI: провайдерлер релизі кезінде нөлдік P1 инциденттері 30 күн.
Жалпы уақыты ≤ SLA 800 мс, иесі: @platform -sre, дейін: 2025-11-05, KPI: p99 <600 мс жүктемемен ретрацияны қайта конфигурациялау.
BIN-қауымдастықтар бойынша бизнес-SLI қосу, иесі: @data -lead, дейін: 2025-11-10, KPI: деградация детекциясы <5 мин.
15) Күнделікті практикаға кіріктіру
Апта сайынғы RCA-ревю: CAPA мәртебесі, жаңа сабақтар, процестерді жаңарту.
wiki тегтері бар пост-мортемалар каталогы (сервис, SEV, себептер) және іздеу.
Шараларды тексеру үшін 2-4 аптадан кейін инцидент себептері бойынша симуляциялар.
On-call онбордингіне сабақтарды қосу және оқу сценарийлерін жаңарту.
16) Жиынтық
Инциденттен кейінгі талдаулар - бұл жүйелі жақсарту тетігі. Фактілер жиналған, себептер дәлелденген, іс-қимылдар өлшенетін және тексерілген кезде, ұйым сенімділіктің операциялық капиталын жинақтайды: MTTR және қайталанған инциденттер құлдырады, релиздердің болжамдылығы және клиенттердің сенімі артады.