Пост-окуя талдоо
1) Эмне үчүн пост-окуя талдоо керек
Пост-инциденттик талдоо (пост-mortem/AAR) - бул ийгиликсиздиктен кийин уюмду окутуунун структураланган процесси. Максаты - күнөөлүү адамдарды табуу эмес, негизги жана өбөлгө түзгөн себептерди аныктоо жана өлчөнүүчү аракеттерди (CAPA) бекитүү, алар кайталануу коркунучун жана инциденттердин баасын төмөндөтүү, SLO, MTTR жана кардарлардын/жөнгө салуучулардын ишенимин жакшыртуу.
2) Принциптер (Just Culture)
Айыпсыз: персоналды эмес, системаларды, чечимдерди жана контекстти талдайбыз.
Фактылар пикирлерден маанилүү: таймлайн, логи, метрика, трейсдер, өзгөрүүлөрдүн артефакттары.
E2E-көрүнүш: Кардардагы симптомдордон тартып, ички көз карандылыктарга жана тышкы провайдерлерге чейин.
Текшерүү: ар бир гипотеза эксперимент/маалыматтар менен тастыкталат.
Цикл жабылышы: талдоо → CAPA → контролдук чекиттер → retest.
3) Качан талдоону баштоо керек жана кандай форматтар бар
Милдеттүү: SEV-0/1; SLA/жөнгө салуу талаптарын бузуу; маалыматтардын агуусу; олуттуу PR-тобокелдик.
Тездетилген (жарык): SEV-2 таасири же кайталануучу белгилери менен.
Communications AAR: Эгерде ийгиликсиздик статус-баракка/колдоого таасирин тийгизсе, биз SLAs жаңылыктарын жана билдирүүлөрдүн сапатын текшеребиз.
Мөөнөттөрү: 48-72 сааттын ичинде долбоор, акыркы версия - 5 жумушчу күнгө чейин (эгерде башкача каралбаса).
4) Ролдору жана жоопкерчилиги
талдоо ээси (RCA лидер): жараянын уюштурат, жолугушуу өткөрөт, отчеттун сапаты жана CAPA үчүн жооптуу.
Incident Commander (IC): окуя фактологиясын жана чечимдерди берет.
Tech Leads (системалар боюнча): артефакттарды тастыктаган себептерди талдоо.
Comms/Support/Legal: байланыш жана комплаенс талаптарын баалоо.
Scribe: протокол, далилдерди чогултуу, структурасын сактоо.
продукт/бизнес Stakholders: кардарларга таасир/жүгүртүү, CAPA артыкчылыктуу.
5) Даярдоо: жолугушууга чейин чогултуу үчүн эмне
Time Line (UTC): T0 аныктоо → Tn калыбына келтирүү; релиздер/fich желектери/конфиги, провайдерлердин статусу.
Байкоо маалыматтары: SLI/SLO графикасы, error-rate, жылмаюу, жылмаюу, издөө, скриншоттор.
Өзгөрүүлөрдүн контекст: PR/deploy шилтемелер, DD көчүрүү, fich желектери, иш пландары.
Импакт: тийген когорттор/региондор/провайдерлер, токтоп калган мүнөттөр, SLA кредиттери.
Байланыш: макала/статус-беттеги билдирүүлөр, саппорттун жооптору, ички жарыялар.
Саясат/ойнотмо: четтөөлөр болгон процессте эмне болушу керек эле.
6) талдоо ыкмалары (айкалышын тандоо)
5 Why: себеп чынжырынын тез ачылышы (тобокелдик - ашыкча жөнөкөйлөтүү).
Исикава диаграммасы (Fishbone): Эл/Process/Платформа/Саясат/Өнөктөш/Продукт.
Fault Tree Analysis (FTA): окуядан көптөгөн себептерге чейин дедукция (AND/OR).
Change Analysis: окуя учурунда өзгөргөн vs туруктуу абалы.
Causal Graph: татаал микросервистер жана тышкы көз карандылыктар үчүн себеп-натыйжа байланыштары.
Human Factors Review: чарчоо, маалымат ызы-чуу, маанилүү эмес runbook '.
7) Отчеттун түзүмү (шаблон)
1. Резюме (Executive Summary): качан, ким таасир, акыркы абалы.
2. Импакт: SLI/SLO, колдонуучулар, региондор/провайдерлер, минималдуу токтоп калуу, каржылык/жөнгө салуучу эффекттер.
3. Таймлайн (UTC): негизги окуялар, релиздер, IC чечимдер, байланыш.
4. Байкоолор жана маалыматтар: графиктер, логдор, соодалар, конфигурациялардын/схемалардын диффтери.
5. Гипотезалар жана текшерүүлөр: кабыл алынган/четке кагылган, эксперименттер/симуляцияларга шилтемелер.
6. Негизги себептер: системалуу/процесстик/техникалык (так формулировкалар).
7. Салым салуучу факторлор: эмне үчүн мурда байкаган/токтоткон эмес.
8. Эмне иштеди/эмне иштебеди: процесстер, инструменттер, адамдар.
9. CAPA: ээлери/мөөнөттөрү/ийгилик көрсөткүчтөрү менен түзөтүү жана эскертүү чаралары.
10. Текшерүү планы: D + 14/D + 30 көзөмөл пункттары, жабуу критерийлери.
11. Тышкы жактар үчүн версиялар: кардар/жөнгө салуучу (сезимтал маалыматтар жок).
12. Тиркемелер: экспонаттар, билеттерге шилтемелер/PR, дашборддун скриншоттору.
8) CAPA: иш-аракет кылуу үчүн кантип
Ар бир иш-аракет ээсине ээ, мөөнөтү жана KPI таасири (мисалы, X% га change-failure-rate төмөндөшү, 90 күндүн нөлдүк кайталанышы, чокуларда burn-rate төмөндөшү).
Corrective бөлүшүү (оңдоо) жана Preventive (алдын алуу) чаралар.
policy-as-code байлап: Алерт, SLO-гейт, Autoscale/лимиттер, GitOps.
CAPA жумалык операциялык жолугушууларда сын-пикирлер менен коомдук бэклогго кирет.
9) таасир текшерүү жана жабуу
контролдук пункттары: D + 7 (аралык), D + 14/D + 30 (негизги), D + 90 (жалпы).
Текшерүү: тесттер/симуляциялар (оюн күнү), көлөкө трафик, байкоо (жашыл зонада туруктуу SLI), кайталануулар жок.
Жабуу CAPA жана тастыкталган метриктер аткарылганда гана мүмкүн.
10) Байланыш жана комплаенс
Ички: азык-түлүк/колдоо/башкаруу үчүн түшүнүктүү статусу, SLA жаңылыктары сакталат.
Тышкы: статус-бет, кардарларга/өнөктөштөргө жөнөтүү; жок тил, алдын алуунун так планы.
Жөнгө салуучу: билдирүүлөрдүн мөөнөттөрү, мисалдарды деперсоналдаштыруу, отчеттордун жана артефакттардын өзгөрүлбөс сакталышы.
11) Жетилүү жараянынын метрикасы
Отчетту жарыялоо убактысы: факт vs SLA (мисалы, ≤ 5 жумушчу күн).
CAPA completion rate:% өз убагында жабылган иш-аракеттер.
Reopen rate: 90 күндүн ичинде кайталанган окуялардын үлүшү.
Системалык себептердин үлүшү vs "адам катасы".
Алерт-гигиена: жалган пейджерлерди азайтуу, runbook менен капталган алерттердин өсүшү.
DORA-метрик өзгөртүү: MTTR, change-failure-rate чейин/кийин.
12) Чек-баракчалар
талдоо алдында
- RCA ээси жана катышуучулардын курамы аныкталган.
- Таймлайн жана экспонаттар чогултулган (логи/графиктер/релиздер/желектер).
- Cocorts/аймак/провайдерлер боюнча импакт бааланган.
- "Impact" жана "Times Line" бөлүмдөрүнүн долбоорлор даярдалган.
- Тиешелүү саясат/playbook иш жүзүндө иш-аракеттер менен салыштырылат.
Учурунда
- кабыл алынган/четке гипотезалар жана негиздер жазылган.
- тамыр жана өбөлгө себептери аныкталган.
- KPI жана мөөнөттөрү менен CAPA планы түзүлгөн.
- Тышкы тараптар үчүн отчеттун версиялары макулдашылган (зарыл болгон учурда).
Кийин
- Отчет өз убагында жарыяланган, ролдору боюнча жетүү.
- CAPA бэклогго киргизилген, ээлери тастыкталган.
- Текшерүү үчүн чекиттер жана мини-симуляция дайындалды.
- Жаңыртылган runbook/SOP/Алерт/документтер.
13) Анти-үлгүлөрү
"Күнөөлүү адам X" - системалуу себептерсиз → кайталоо.
CAPA же ээлери/мөөнөтү жок отчет - кагаз үчүн кагаз.
Фактылар/артефакттар жок - сезимдеги корутундулар.
Өтө жалпы тил ("DD ашыкча") эч кандай конкреттүү өзгөрүүлөр.
Коммуникацияларды жана комплаенсти көз жаздымда калтыруу - репутациялык тобокелчиликтер.
Эффекттерди текшербестен жабуу - бир жумадан кийин кайталануулар.
14) Mini үлгүлөрү
Отчет капкагы
Incident: INC-2025-10-31 (SEV-1)
Window: 2025-10-31 18: 05-18: 47 UTC
Owner of the analysis: @ rca-lead
Affected: EU region, payments (success -28% peak)
Status: corrected; 48 hours monitoring
Тамыр себебинин формулировкасы (мисал)
CAPA (фрагмент)
PSP-A (1% → 5% → 25%) үчүн canary-маршрутташтыруу киргизүү, ээси: @payments -tl, чейин: 2025-11-07, KPI: нөлдүк P1 30 күн кызмат көрсөтүүчүлөрдүн бошотуу окуялар.
SLA 800 мс ≤ жалпы убактысы менен таймауттарды/ретраларды кайра конфигурациялоо, ээси: @platform -sre, чейин: 2025-11-05, KPI: p99 <600 мс жүктөмдө N.
BIN coorts боюнча бизнес-SLI кошуу, ээси: @data -lead, чейин: 2025-11-10, KPI: деградация детекциясы <5 мин.
15) күнүмдүк практикага киргизүү
Жумалык RCA Review: CAPA статусу, жаңы сабактар, процесстерди жаңыртуу.
wiki тегдер менен Post-Mortems каталогу (кызмат, SEV, себептери) жана издөө.
Иш-чараларды текшерүү үчүн 2-4 жумадан кийин окуяга негизделген симуляциялар.
On-call онбордингине сабактарды киргизүү жана окуу сценарийлерин жаңыртуу.
16) Жыйынтык
Пост-окуя талдоо - бул системалык жакшыртуу механизми болуп саналат. Фактылар чогултулганда, себептер далилденсе, иш-аракеттер өлчөнөт жана текшерилет, уюм ишенимдүүлүктүн операциялык капиталын топтойт: MTTR жана кайталанган инциденттер төмөндөйт, релиздердин алдын ала айтууга жөндөмдүүлүгү жана кардарлардын ишеними өсөт.