GH GambleHub

Пост-окуя талдоо

1) Эмне үчүн пост-окуя талдоо керек

Пост-инциденттик талдоо (пост-mortem/AAR) - бул ийгиликсиздиктен кийин уюмду окутуунун структураланган процесси. Максаты - күнөөлүү адамдарды табуу эмес, негизги жана өбөлгө түзгөн себептерди аныктоо жана өлчөнүүчү аракеттерди (CAPA) бекитүү, алар кайталануу коркунучун жана инциденттердин баасын төмөндөтүү, SLO, MTTR жана кардарлардын/жөнгө салуучулардын ишенимин жакшыртуу.

2) Принциптер (Just Culture)

Айыпсыз: персоналды эмес, системаларды, чечимдерди жана контекстти талдайбыз.
Фактылар пикирлерден маанилүү: таймлайн, логи, метрика, трейсдер, өзгөрүүлөрдүн артефакттары.
E2E-көрүнүш: Кардардагы симптомдордон тартып, ички көз карандылыктарга жана тышкы провайдерлерге чейин.
Текшерүү: ар бир гипотеза эксперимент/маалыматтар менен тастыкталат.
Цикл жабылышы: талдоо → CAPA → контролдук чекиттер → retest.

3) Качан талдоону баштоо керек жана кандай форматтар бар

Милдеттүү: SEV-0/1; SLA/жөнгө салуу талаптарын бузуу; маалыматтардын агуусу; олуттуу PR-тобокелдик.
Тездетилген (жарык): SEV-2 таасири же кайталануучу белгилери менен.
Communications AAR: Эгерде ийгиликсиздик статус-баракка/колдоого таасирин тийгизсе, биз SLAs жаңылыктарын жана билдирүүлөрдүн сапатын текшеребиз.

Мөөнөттөрү: 48-72 сааттын ичинде долбоор, акыркы версия - 5 жумушчу күнгө чейин (эгерде башкача каралбаса).

4) Ролдору жана жоопкерчилиги

талдоо ээси (RCA лидер): жараянын уюштурат, жолугушуу өткөрөт, отчеттун сапаты жана CAPA үчүн жооптуу.
Incident Commander (IC): окуя фактологиясын жана чечимдерди берет.
Tech Leads (системалар боюнча): артефакттарды тастыктаган себептерди талдоо.
Comms/Support/Legal: байланыш жана комплаенс талаптарын баалоо.
Scribe: протокол, далилдерди чогултуу, структурасын сактоо.
продукт/бизнес Stakholders: кардарларга таасир/жүгүртүү, CAPA артыкчылыктуу.

5) Даярдоо: жолугушууга чейин чогултуу үчүн эмне

Time Line (UTC): T0 аныктоо → Tn калыбына келтирүү; релиздер/fich желектери/конфиги, провайдерлердин статусу.
Байкоо маалыматтары: SLI/SLO графикасы, error-rate, жылмаюу, жылмаюу, издөө, скриншоттор.
Өзгөрүүлөрдүн контекст: PR/deploy шилтемелер, DD көчүрүү, fich желектери, иш пландары.
Импакт: тийген когорттор/региондор/провайдерлер, токтоп калган мүнөттөр, SLA кредиттери.
Байланыш: макала/статус-беттеги билдирүүлөр, саппорттун жооптору, ички жарыялар.
Саясат/ойнотмо: четтөөлөр болгон процессте эмне болушу керек эле.

6) талдоо ыкмалары (айкалышын тандоо)

5 Why: себеп чынжырынын тез ачылышы (тобокелдик - ашыкча жөнөкөйлөтүү).
Исикава диаграммасы (Fishbone): Эл/Process/Платформа/Саясат/Өнөктөш/Продукт.
Fault Tree Analysis (FTA): окуядан көптөгөн себептерге чейин дедукция (AND/OR).
Change Analysis: окуя учурунда өзгөргөн vs туруктуу абалы.
Causal Graph: татаал микросервистер жана тышкы көз карандылыктар үчүн себеп-натыйжа байланыштары.
Human Factors Review: чарчоо, маалымат ызы-чуу, маанилүү эмес runbook '.

7) Отчеттун түзүмү (шаблон)

1. Резюме (Executive Summary): качан, ким таасир, акыркы абалы.
2. Импакт: SLI/SLO, колдонуучулар, региондор/провайдерлер, минималдуу токтоп калуу, каржылык/жөнгө салуучу эффекттер.
3. Таймлайн (UTC): негизги окуялар, релиздер, IC чечимдер, байланыш.
4. Байкоолор жана маалыматтар: графиктер, логдор, соодалар, конфигурациялардын/схемалардын диффтери.
5. Гипотезалар жана текшерүүлөр: кабыл алынган/четке кагылган, эксперименттер/симуляцияларга шилтемелер.
6. Негизги себептер: системалуу/процесстик/техникалык (так формулировкалар).
7. Салым салуучу факторлор: эмне үчүн мурда байкаган/токтоткон эмес.
8. Эмне иштеди/эмне иштебеди: процесстер, инструменттер, адамдар.
9. CAPA: ээлери/мөөнөттөрү/ийгилик көрсөткүчтөрү менен түзөтүү жана эскертүү чаралары.
10. Текшерүү планы: D + 14/D + 30 көзөмөл пункттары, жабуу критерийлери.
11. Тышкы жактар үчүн версиялар: кардар/жөнгө салуучу (сезимтал маалыматтар жок).
12. Тиркемелер: экспонаттар, билеттерге шилтемелер/PR, дашборддун скриншоттору.

8) CAPA: иш-аракет кылуу үчүн кантип

Ар бир иш-аракет ээсине ээ, мөөнөтү жана KPI таасири (мисалы, X% га change-failure-rate төмөндөшү, 90 күндүн нөлдүк кайталанышы, чокуларда burn-rate төмөндөшү).
Corrective бөлүшүү (оңдоо) жана Preventive (алдын алуу) чаралар.
policy-as-code байлап: Алерт, SLO-гейт, Autoscale/лимиттер, GitOps.
CAPA жумалык операциялык жолугушууларда сын-пикирлер менен коомдук бэклогго кирет.

9) таасир текшерүү жана жабуу

контролдук пункттары: D + 7 (аралык), D + 14/D + 30 (негизги), D + 90 (жалпы).
Текшерүү: тесттер/симуляциялар (оюн күнү), көлөкө трафик, байкоо (жашыл зонада туруктуу SLI), кайталануулар жок.
Жабуу CAPA жана тастыкталган метриктер аткарылганда гана мүмкүн.

10) Байланыш жана комплаенс

Ички: азык-түлүк/колдоо/башкаруу үчүн түшүнүктүү статусу, SLA жаңылыктары сакталат.
Тышкы: статус-бет, кардарларга/өнөктөштөргө жөнөтүү; жок тил, алдын алуунун так планы.
Жөнгө салуучу: билдирүүлөрдүн мөөнөттөрү, мисалдарды деперсоналдаштыруу, отчеттордун жана артефакттардын өзгөрүлбөс сакталышы.

11) Жетилүү жараянынын метрикасы

Отчетту жарыялоо убактысы: факт vs SLA (мисалы, ≤ 5 жумушчу күн).
CAPA completion rate:% өз убагында жабылган иш-аракеттер.
Reopen rate: 90 күндүн ичинде кайталанган окуялардын үлүшү.
Системалык себептердин үлүшү vs "адам катасы".
Алерт-гигиена: жалган пейджерлерди азайтуу, runbook менен капталган алерттердин өсүшү.
DORA-метрик өзгөртүү: MTTR, change-failure-rate чейин/кийин.

12) Чек-баракчалар

талдоо алдында

  • RCA ээси жана катышуучулардын курамы аныкталган.
  • Таймлайн жана экспонаттар чогултулган (логи/графиктер/релиздер/желектер).
  • Cocorts/аймак/провайдерлер боюнча импакт бааланган.
  • "Impact" жана "Times Line" бөлүмдөрүнүн долбоорлор даярдалган.
  • Тиешелүү саясат/playbook иш жүзүндө иш-аракеттер менен салыштырылат.

Учурунда

  • кабыл алынган/четке гипотезалар жана негиздер жазылган.
  • тамыр жана өбөлгө себептери аныкталган.
  • KPI жана мөөнөттөрү менен CAPA планы түзүлгөн.
  • Тышкы тараптар үчүн отчеттун версиялары макулдашылган (зарыл болгон учурда).

Кийин

  • Отчет өз убагында жарыяланган, ролдору боюнча жетүү.
  • CAPA бэклогго киргизилген, ээлери тастыкталган.
  • Текшерүү үчүн чекиттер жана мини-симуляция дайындалды.
  • Жаңыртылган runbook/SOP/Алерт/документтер.

13) Анти-үлгүлөрү

"Күнөөлүү адам X" - системалуу себептерсиз → кайталоо.
CAPA же ээлери/мөөнөтү жок отчет - кагаз үчүн кагаз.
Фактылар/артефакттар жок - сезимдеги корутундулар.
Өтө жалпы тил ("DD ашыкча") эч кандай конкреттүү өзгөрүүлөр.
Коммуникацияларды жана комплаенсти көз жаздымда калтыруу - репутациялык тобокелчиликтер.
Эффекттерди текшербестен жабуу - бир жумадан кийин кайталануулар.

14) Mini үлгүлөрү

Отчет капкагы


Incident: INC-2025-10-31 (SEV-1)
Window: 2025-10-31 18: 05-18: 47 UTC
Owner of the analysis: @ rca-lead
Affected: EU region, payments (success -28% peak)
Status: corrected; 48 hours monitoring

Тамыр себебинин формулировкасы (мисал)

💡 Комбинация: (1) карта валидаторун өзгөртүү ↑ p95 1. 2 c, (2) PSP-A үчүн убакыт 1 бюджеттештирилген retrains жок c, (3) провайдер үчүн канар жок. Бул массалык таймауттарга жана төлөмдөрдүн ийгилигинин төмөндөшүнө алып келди.

CAPA (фрагмент)

PSP-A (1% → 5% → 25%) үчүн canary-маршрутташтыруу киргизүү, ээси: @payments -tl, чейин: 2025-11-07, KPI: нөлдүк P1 30 күн кызмат көрсөтүүчүлөрдүн бошотуу окуялар.
SLA 800 мс ≤ жалпы убактысы менен таймауттарды/ретраларды кайра конфигурациялоо, ээси: @platform -sre, чейин: 2025-11-05, KPI: p99 <600 мс жүктөмдө N.
BIN coorts боюнча бизнес-SLI кошуу, ээси: @data -lead, чейин: 2025-11-10, KPI: деградация детекциясы <5 мин.

15) күнүмдүк практикага киргизүү

Жумалык RCA Review: CAPA статусу, жаңы сабактар, процесстерди жаңыртуу.
wiki тегдер менен Post-Mortems каталогу (кызмат, SEV, себептери) жана издөө.
Иш-чараларды текшерүү үчүн 2-4 жумадан кийин окуяга негизделген симуляциялар.
On-call онбордингине сабактарды киргизүү жана окуу сценарийлерин жаңыртуу.

16) Жыйынтык

Пост-окуя талдоо - бул системалык жакшыртуу механизми болуп саналат. Фактылар чогултулганда, себептер далилденсе, иш-аракеттер өлчөнөт жана текшерилет, уюм ишенимдүүлүктүн операциялык капиталын топтойт: MTTR жана кайталанган инциденттер төмөндөйт, релиздердин алдын ала айтууга жөндөмдүүлүгү жана кардарлардын ишеними өсөт.

Contact

Биз менен байланышыңыз

Кандай гана суроо же колдоо керек болбосун — бизге кайрылыңыз.Биз дайым жардам берүүгө даярбыз!

Telegram
@Gamble_GC
Интеграцияны баштоо

Email — милдеттүү. Telegram же WhatsApp — каалооңузга жараша.

Атыңыз милдеттүү эмес
Email милдеттүү эмес
Тема милдеттүү эмес
Билдирүү милдеттүү эмес
Telegram милдеттүү эмес
@
Эгер Telegram көрсөтсөңүз — Emailден тышкары ошол жактан да жооп беребиз.
WhatsApp милдеттүү эмес
Формат: өлкөнүн коду жана номер (мисалы, +996XXXXXXXXX).

Түшүрүү баскычын басуу менен сиз маалыматтарыңыздын иштетилишине макул болосуз.