GH GambleHub

Инциденттен кейінгі талдаулар

1) Инциденттен кейінгі талдаулар не үшін қажет

Инциденттен кейінгі талдау (post-mortem/AAR) - бұл істен шыққаннан кейін ұйымды оқытудың құрылымдалған процесі. Мақсаты - кінәлі адамдарды іздеу емес, негізгі және ықпал ететін себептерді анықтау және қайталану қаупін және инциденттердің құнын төмендететін өлшенетін әрекеттерді (CAPA) бекіту, SLO, MTTR және клиенттердің/реттеушілердің сенімін жақсарту.

2) Қағидаттар (Just Culture)

Айыптаусыз: персоналды емес, жүйелерді, шешімдерді және контекстті талдаймыз.
Фактілер пікірлерден де маңызды: таймлайн, логи, метрика, трейстер, өзгерістер артефактілері.
E2E-көзқарас: клиенттегі симптомдардан ішкі тәуелділікке және сыртқы провайдерлерге дейін.
Тексерілетіндігі: әрбір гипотеза эксперимент/деректермен расталады.
Циклдің тұйықталуы: талдау → CAPA → бақылау нүктелері → ретест.

3) Талдау қашан және қандай пішімдер болады

Міндетті: SEV-0/1; SLA/реттеу талаптарын бұзу; деректердің жылыстауы; маңызды PR-тәуекел.
Жеделдетілген (light): елеулі әсері немесе қайталанатын симптомдары бар SEV-2.
Коммуникациялық AAR: егер жаңылыс статус-бетті/қолдауды қозғаса, SLAs жаңартуларын және хабарламалардың сапасын тексереміз.

Мерзімі: жоба 48-72 сағат бұрын, соңғы нұсқасы - 5 жұмыс күніне дейін (егер басқаша айтылмаса).

4) Рөлдер мен жауапкершілік

Талдау иесі (RCA Lead): процесті ұйымдастырады, кездесуді жүргізеді, есептің және CAPA сапасына жауап береді.
Incident Commander (IC): оқиға фактологиясын және шешімдерді ұсынады.
Tech Leads (жүйелер бойынша): артефактілерді растайтын себептерді талдау.
Comms/Support/Legal: коммуникацияларды және комплаенс талаптарын бағалау.
Scribe: хаттама, дәлелдерді жинау, құрылымын сақтау.
Өнім/бизнес стейкхолдерлері: клиенттерге әсері/айналымы, CAPA басымдығы.

5) Дайындық: кездесуге дейін не жинау керек

Таймлайн (UTC): T0 анықтау → Tn қалпына келтіру; релиздер/фич-жалаулар/конфигалар, провайдерлер мәртебесі.
Бақылау деректері: SLI/SLO, error-rate, перцентиль, логи, трассировка, скриншоттар графиктері.
Өзгерістер контексі: PR/деплойға сілтемелер, ДБ көші-қоны, фич-жалаулар, жұмыс жоспарлары.
Импакт: қозғалған когорттар/өңірлер/провайдерлер, тоқтап тұрған минуттар, SLA бойынша кредиттер.
Коммуникациялар: статус-парақтағы жоба жазбалар/посттар, саппорттың жауаптары, ішкі аңдатпалар.
Саясат/плейбуктер: ауытқулар болған процесс бойынша не болуы тиіс.

6) Талдау әдістемелері (комбинацияны таңдаңыз)

5 Why: себеп тізбегін жылдам ашу (тәуекел - шамадан тыс жеңілдету).
Исикава диаграммасы (Fishbone): People/Process/Platform/Policy/Partner/Product.
Fault Tree Analysis (FTA): оқиғадан көптеген себептерге дейін дедукция (AND/OR).
Change Analysis: оқиға кезінде не өзгерді vs тұрақты жағдай.
Causal Graph: күрделі микросервистер мен сыртқы тәуелділіктер үшін себеп-салдарлық байланыстар бағаны.
Human Factors Review: шаршау, ақпараттық шу, өзекті емес runbook '.

7) Есептің құрылымы (үлгі)

1. Түйіндеме (Executive Summary): не, қашан, кімге әсер етті, қорытынды мәртебесі.
2. Импакт: SLI/SLO, пайдаланушылар, аймақтар/провайдерлер, ең аз кідіріс, қаржылық/реттеуші әсерлер.
3. Таймлайн (UTC): негізгі оқиғалар, релиздер, IC шешімдері, коммуникациялар.
4. Бақылаулар және деректер: графиктер, логтар, трейстер, конфигурациялар/схемалар диффалары.
5. Гипотезалар және тексерулер: қабылданған/қабылданбаған, эксперименттерге/симуляцияларға сілтемелер.
6. Түбірлік себептер: жүйелі/процестік/техникалық (айқын тұжырымдар).
7. Ықпал ететін факторлар: неге бұрын байқамадыңыз/тоқтатпадыңыз.
8. Не істеді/не істемеді: процестер, құралдар, адамдар.
9. CAPA: табыстың иелерімен/мерзімдерімен/өлшемдерімен түзету және ескерту шаралары.
10. Верификация жоспары: D + 14/D + 30 бақылау нүктелері, жабу критерийлері.
11. Сыртқы жақтарға арналған нұсқалар: клиенттік/реттегіш (сезімтал деректерсіз).
12. Қосымшалар: артефактілер, тикеттерге/PR сілтемелер, дашбордтардың скриншоттары.

8) CAPA: әрекетті қалай жұмыс істеуге болады

Әрбір әрекеттің иесі, мерзімі және KPI әсері бар (мысалы, change-failure-rate X% -ға төмендеуі, 90 күнді нөлдік қайталау, ең жоғары деңгейде burn-rate азаюы).
Corrective (түзету) және Preventive (болдырмау) шараларын бөліңіз.
policy-as-code: алерттар, SLO-гейттер, автоскейл/лимиттер, GitOps.
CAPA апта сайынғы операциялық кездесулерде шолулары бар көпшілік бэклогына түседі.

9) Әсерді тексеру және жабу

Бақылау нүктелері: D + 7 (аралық), D + 14/D + 30 (негізгі), D + 90 (жиынтық).
Верификация: тестілер/симуляциялар (game day), shadow-трафик, байқалушылық (жасыл аймақта тұрақты SLI), рецидивтердің болмауы.
Жабу CAPA және расталған метриктер орындалған кезде ғана мүмкін болады.

10) Коммуникация және комплаенс

Ішкі: азық-түлік/қолдау/менеджмент үшін түсінікті мәртебе, SLA жаңартулары сақталған.
Сыртқы: статус-бет, клиенттерге/серіктестерге тарату; айыптаусыз тіл, алдын алудың нақты жоспары.
Реттеуіш: хабарлау мерзімдері, мысалдарды деперсонализациялау, есептер мен артефактілерді өзгеріссіз сақтау.

11) Процестің жетілу өлшемдері

Есепті жариялау уақыты: факт vs SLA (мысалы, ≤ 5 жұмыс күні).
CAPA completion rate: мерзімінде жабылған әрекеттер%.
Reopen rate: 90 күнде қайталанатын инциденттердің үлесі.
Жүйелік себептердің үлесі vs «адам қатесі».
Алерт-гигиена: жалған пейджерлерді азайту, runbook-пен қамтылған алерттердің өсуі.
DORA метрикасын өзгерту: MTTR, change-failure-rate дейін/кейін.

12) Чек парақтары

Талдау алдында

  • RCA иесі және қатысушылар құрамы анықталды.
  • Таймлайн және артефактілер (логтар/графиктер/релиздер/жалаулар) жиналды.
  • Импакт қоғам/өңір/провайдерлер бойынша бағаланды.
  • «Импакт» және «Таймлайн» бөлімдерінің жобалары дайындалды.
  • Релевантты саясат/плейбуктер іс жүзіндегі әрекеттермен салыстырылған.
  • Қабылданған/қабылданбаған гипотезалар мен негіздер тіркелді.
  • Түбірлі және ықпал ететін себептер анықталды.
  • KPI және мерзімдері бар CAPA-жоспары қалыптастырылды.
  • Сыртқы тараптар үшін есептің нұсқалары келісілді (қажет болған жағдайда).
  • Есеп мерзімінде жарияланды, рөлдер бойынша қол жетімділік.
  • CAPA бэклогқа енгізілген, иелері расталған.
  • Тексеру үшін бақылау нүктелері мен шағын симуляция тағайындалды.
  • runbook/SOP/алерта/құжаттама жаңартылды.

13) Қарсы үлгілер

«Кінәлі адам X» - жүйелік себептерсіз → қайталау.
CAPA-сыз немесе иесіз/мерзімсіз есеп - қағаз үшін қағаз.
Фактілер/артефактілер жоқ - сезімде тұжырымдар.
Тым ортақ тіл («ДБ жүктеу») нақты өзгеріссіз.
Коммуникация мен комплаенсті елемеу - бедел тәуекелі.
Эффектілерді тексермей жабу - бір аптадан кейін қайталану.

14) Шағын үлгілер

Есеп бүркемесі


Incident: INC-2025-10-31 (SEV-1)
Window: 2025-10-31 18: 05-18: 47 UTC
Owner of the analysis: @ rca-lead
Affected: EU region, payments (success -28% peak)
Status: corrected; 48 hours monitoring

Түбірлік себептердің тұжырымдамасы (мысал)

💡 Комбинация: (1) карта валидаторын ↑ p95-тен 1-ге дейін өзгерту. 2 c, (2) бюджеттелген ретрассыз PSP-A 1 c таймаут, (3) провайдер үшін canary болмауы. Бұл жаппай таймауттарға және төлемдер табысының төмендеуіне алып келді.

CAPA (үзік)

PSP-A-ға canary-маршруттауды қосу (1% → 5% → 25%), иесі: @payments -tl, дейін: 2025-11-07, KPI: провайдерлер релизі кезінде нөлдік P1 инциденттері 30 күн.
Жалпы уақыты ≤ SLA 800 мс, иесі: @platform -sre, дейін: 2025-11-05, KPI: p99 <600 мс жүктемемен ретрацияны қайта конфигурациялау.
BIN-қауымдастықтар бойынша бизнес-SLI қосу, иесі: @data -lead, дейін: 2025-11-10, KPI: деградация детекциясы <5 мин.

15) Күнделікті практикаға кіріктіру

Апта сайынғы RCA-ревю: CAPA мәртебесі, жаңа сабақтар, процестерді жаңарту.
wiki тегтері бар пост-мортемалар каталогы (сервис, SEV, себептер) және іздеу.
Шараларды тексеру үшін 2-4 аптадан кейін инцидент себептері бойынша симуляциялар.
On-call онбордингіне сабақтарды қосу және оқу сценарийлерін жаңарту.

16) Жиынтық

Инциденттен кейінгі талдаулар - бұл жүйелі жақсарту тетігі. Фактілер жиналған, себептер дәлелденген, іс-қимылдар өлшенетін және тексерілген кезде, ұйым сенімділіктің операциялық капиталын жинақтайды: MTTR және қайталанған инциденттер құлдырады, релиздердің болжамдылығы және клиенттердің сенімі артады.

Contact

Бізбен байланысыңыз

Кез келген сұрақ немесе қолдау қажет болса, бізге жазыңыз.Біз әрдайым көмектесуге дайынбыз!

Telegram
@Gamble_GC
Интеграцияны бастау

Email — міндетті. Telegram немесе WhatsApp — қосымша.

Сіздің атыңыз міндетті емес
Email міндетті емес
Тақырып міндетті емес
Хабарлама міндетті емес
Telegram міндетті емес
@
Егер Telegram-ды көрсетсеңіз — Email-ге қоса, сол жерге де жауап береміз.
WhatsApp міндетті емес
Пішім: +ел коды және номер (мысалы, +7XXXXXXXXXX).

Батырманы басу арқылы деректерді өңдеуге келісім бересіз.