Միջադեպերը և MSE պլեյբուկները
1) Ի՞ նչ է պատահարը, և ինչպե՞ ս է այն կապված SLO-ի հետ։
Դեպքը մի իրադարձություն է, որը խախտում է SLO/պաշտոնական գործառույթը կամ ստեղծում է խախտման ռիսկ (սխալ բյուջեն անընդունելի է)։
Դասական մետրերը ՝ MTTD, MTTA, MTTR, MTBF։
Բյուջեի սխալը և burn-rate որոշում են շարժասանդուղքների գերակայությունը և պատուհանները։
2) Լրջության մակարդակները (SEV) և չափանիշները
SEV-ի ձգիչները '5xx%, r95> շեմն, ստացիոնար decom spike, Kafka-lag> շեմն, NodeJ tReady> X մինը, TSA-ն ավարտվում է <7 օր, DDoS/արտահոսքի ազդանշաններ։
3) Դերեր և պատասխանատվություն (RACI)
Incident Commander (IC) - որոշումների միակ ընդունումը, առաջադրանքների հոսքի կառավարումը, SEV կարգավիճակը փոխելը։
Ops Lead (Tech Lead) - տեխնոլոգիական ռազմավարություն, վարկածներ, ֆիքսների համակարգումը։
Communicational Lead (Comics) - apdeits (ներքին/արտաքին), StatusPage/chat/փոստ։
Scribe (Chrome) - թայմլայնը, լուծումները, արտեֆակտները, գրաֆիկայի/լոգայի հղումները։
On-call Engineers/SMES-ը պլեյբուսների գործողությունների կատարումն է։
Express/Privacy - ներառված են անվտանգության միջադեպերի կամ PII-ի ժամանակ։
FinOps/Payments-ը, երբ ազդում է բիլինգի/PSA/արժեքը։
4) Կյանքի ցիկլը
1. Մանկական (alert/report/սինթետիկ) բացատրվում է քարտի ստեղծումը։
2. Եռյակը (IC նշանակվել է, SEV-ը նշանակված է, հավաքվում է համապատասխան կոնտեքստը)։
3. Կայունացում (mitigation: անջատել fich/rollbek/rate-limit/failover)։
4. Հետազոտություն (RCA վարկածներ, փաստերի հավաքումը)։
5. Մրցույթի վերականգնումը (validate SLO, դիտարկումը)։
6. Հաղորդակցություն (ներսում/դրսում, վերջնական զեկույցը)։
7. Postmortem (առանց պայմանագրերի, CAPA պլանը, սեփականատերերը, ժամկետները)։
8. Systvention (թեստեր/ալերտներ/պլեյբուսներ/դրոշներ, թիմի կրկնօրինակումը)։
5) Հաղորդակցություն և «war-room»
Մրցույթի միասնական ալիքը («# inc-sev1-YYYYMMDD-hmm»), միայն փաստերն ու գործողությունները։
Ռադիո-արձանագրության թիմերը '"IC: Ես նշանակում եմ rollback տարբերակը 1։ 24 նոյեմբերի ETA 10 րոպե"։
Կարգավիճակը 'SEV-1 յուրաքանչյուր 15 րոպե, SEV-2' յուրաքանչյուր 30-60 ռուբլիներ
Status Page/արտաքին հաղորդակցությունը Comics Lead-ի միջոցով։
Արգելվում է 'զուգահեռ «հանգիստ» սենյակները, անպարկեշտ վարկածները ընդհանուր ալիքի մեջ։
6) Ալերտինգը և SLO-burn (կանոնների օրինակ)
Արագ ջրանցքը (1-5 րոպե) և դանդաղ ջրանցքը (1-2 ժամ) burn-rate։
Մուլտֆիլմի ազդանշաններ 'բյուջեի սխալ, 5xx%, p95, Kafka-lag, ստացիոնար decom-rate, սինթետիկ։
Առաջին պատճառը փնտրելը միայն ախտանիշներից հետո է։
Օրինակներ (ընդհանրացված)
promql
Ошибочная доля 5xx > SLO sum(rate(http_requests_total{status=~"5.."}[5m])) / sum(rate(http_requests_total[5m])) > 0.01
Burn-rate быстрый (пример)
(sum(rate(http_requests_total{status=~"5.."}[1m])) / sum(rate(http_requests_total[1m])))
/ (1 - SLO) > 14.4
7) Պլեյբուկի vs ranbuki
Pleybuk-ը գործողությունների սցենարն է, ինչպիսիք են (ճյուղերը, պայմանները, ռիսկերը)։
Ռանբուկը քայլերի/հրամանների կոնկրետ քարտեզն է (ստուգումներ, ֆիքսներ, հավատալիքներ)։
Կանոն 'պլեյբուկը տեղադրված է մի քանի ռումբերի վրա (rollbacks, feature-flags, failover, մասշտաբով, արգելափակումով և այլն)։
8) Քարտեր
yaml id: INC-YYYYMMDD-XXXX title: "[SEV-1] Рост 5xx на API /payments"
status: active monitoring resolved sev: 1 reported_at: 2025-11-03T17:42Z ic: <ФИО>
ops_lead: <ФИО>
comms_lead: <ФИО>
scope: regions: [eu-west-1], tenants: [prod], services: [api, payments]
impact: "5xx=12% (обычно <0.5%), конверсия депозитов -20%"
mitigation: "откат на 1.23.4, включен rate-limit 2k rps, фича X выключена"
timeline:
- "17:42: алерт SLO burn-rate быстрый"
- "17:46: назначен IC, открыт war-room"
- "17:52: найден релиз 1.24 как кандидат"
- "18:02: откат завершен, 5xx вернулись к 0.3%"
artifacts:
dashboards: [...]
logs: [...]
traces: [...]
risk: "возможен очередной всплеск при включении фичи X"
next_steps: "канареечный релиз, тесты, постмортем до 2025-11-05"
9) SNE պլեյբուկա (Markdown)
markdown
Плейбук: <название>
Область/симптомы
Список детекторов, сигнатуры в метриках/логах/трассах.
Быстрая стабилизация (Triage & Mitigation)
- [ ] Ограничить трафик/включить WAF-правило/фичефлаг OFF
- [ ] Роллбэк/канареечный релиз/выкатить фикс конфигурации
- [ ] Включить деградационный режим (read-only, кэш-форс)
Диагностика (RCA hints)
- Метрики: … Логи: … Трассы: …
- Частые первопричины/чек-лист гипотез
Риски и коммуникации
- Внутренние/внешние апдейты, SLA-обязательства
Верификация
- [ ] SLO восстановлено (порог/время окна)
- [ ] Нет регресса по смежным сервисам
Последующие действия
- CAPA, задачи в backlog, обновление алертов/дашбордов/плейбука
10) Տիպիկ պլեյբուսներ
10. 1 API 5xx Spike
Կայունացում 'անջատել խնդրահարույց ֆիչեֆլագը։ բարձրացնել API կրկնօրինակները; միացրեք cashing; արձագանքը։
Ախտորոշումը 'diff roada, սխալներ լոգարաններում (top-porteptions), p95, pressure BD/kesa։
Ռիսկերը 'կասկադ ածխաջրածիններում/backends։
10. 2 БД: replication lag / lock storm
Կայունացում 'ծանր ջոբների/ռեպորտերի դադարեցում; ուղղել ընթերցանությունը վարպետին; բարձրացնել wal _ buffers/կրկնվող արցունքները։
Ախտորոշումը 'երկար գործարքներ, որոնք արգելափակում են հարցումները, պլանի փոփոխությունները։
Ամրագրում 'ինդեքսներ/հինտներ, ջոբների վերակառուցում, հարցումների բացահայտում։
10. 3 Kafka consumer lag
Կայունացում 'ժամանակավորապես ավելացնել consumer' a; նվազեցնել արտադրությունը քննադատական ծառայություններից; բարձրացնել կուսակցությունները/քվոտաները։
Ախտորոշումը 'rebalances, դանդաղ դեսերալիզացիա, GC-դադարներ։
Վերիֆիկացիան 'լագը կապված է նպատակային նշանակության հետ, ոչ էլ այլն։
10. 4 K8s NodeJ tReady/ռեսուրս փոթորիկ
Կայունացում ՝ don + entain; վերաբաշխել բեռը; Ստուգել CNI/overlay; անջատել աղմկոտ DaemonLine 'ները։
Ախտորոշումը 'www.k pressure, OFC, throttling, network drops։
Կանխարգելումը 'pod www.ruption budgets, ռեսուրսային լիմիտներ/reques.ru։
10. 5 TFC/հավաստագրերը լրանում են
Ախտորոշումը 'վստահության շղթա, clock-ew։
Կայունացում 'գաղտնի/ingress հարկադիր նորարարություն; ժամանակավոր override.
Կանխարգելումը 'T-30/T-7/T-1, Auto-renual ալտերտերը։
10. 6 DDoS/աննորմալ ստանդարտ
Կայունացում ՝ WAF/բոտային կանոններ, rate-limit/geo ֆիլտրեր, upstream shed load։
Ախտորոշումը 'հարձակման պրոֆիլները (L3/4/7), աղբյուրները, «հովանոցները»։
Կանխարգելումը 'anycom, autoscaling, cashing, play-nice պրովայդերների հետ։
10. 7 Ստացիոնար PSA-աուտեյջ
Կայունացում 'smart-routing այլընտրանքային PMS/մեթոդների վրա; բարձրացնել retry հետ jitter; UI-ի «փափուկ» քայքայումը։
Ախտորոշումը 'spike ձախողումներ կոդերով, API/PSA կարգավիճակները։
Հաղորդակցություն 'թափանցիկ ապդեյտներ բիզնեսի և կոշիկի համար, ND/կոնվերսիայի ճիշտ վիճակագրությունը։
10. 8 Անվտանգության դեպք/PII արտահոսք
Կայունացում 'հանգույցների մեկուսացում/գաղտնաբառ-ինդուկցիա, էքսպոզիցիայի արգելափակում, Legal Hold։
Ախտորոշումը 'տիմլայնային հասանելիություն, որոնք ազդում են սուբյեկտների/դաշտերի վրա։
Ծանուցումներ ՝ կարգավորիչներ/գործընկերներ/օգտագործողներ միգրացիայի պահանջներին։
Կանխարգելումը ՝ www.DLP/հատվածներ, «leportprivilege»։
11) Պլեյբուկների ավտոմատիզացիան
ChatOps թիմերը ՝ "/ic no. sev 1 ", "/deploy rollback api 1։ 23. 4`, `/feature off X`.
Runbook-bots: կես-ավտոմատ քայլերը (wwww.ain node, flip traff, purge cache)։
Winf-healing huks: դետեկտորը ստանդարտ mitigation (rate-limit, restart, scale)։
Քարտերի/timline-ի և թիմերի ստեղծումը։
12) Պլեյբուսների որակը 'չեկ թերթ
- Պարզ ախտանիշներ և դետեկտորներ (մետրեր/լոգներ/հետքեր)։
- Արագ քայլերը կապված են ռիսկի գնահատման հետ։
- Թիմերը/ջութակները արդիական են, ստուգված են staging-ում։
- SLO վերականգնման վերականգնումը։
- Հաղորդակցման ձևանմուշները և արտաքին ապդեյթների չափանիշները։
- Postmortem հղում և CAPA փակվելուց հետո։
13) Postmortem (blameless) և CAPA
Նպատակը 'սովորել, ոչ թե գտնել մեղավոր։
Բովանդակությունը 'ինչ տեղի ունեցավ, ինչպես հայտնաբերեցին, որ լավ/վատ էր, գործոնների ներդրումը (այդ + գործընթացները), վիրահատությունները կանխելու համար։
Ժամանակահատվածը 'SEV-1 - 48 ժամ; SEV-2-3 աշխատանքային օր։
CAPA 'կոնկրետ սեփականատերեր, ժամկետներ, չափելի էֆեկտներ (MTTR/MTTD աճը)։
14) Իրավական ասպեկտները և ապացույցների հիմքը
Legal Hold: Logs/trass/alerts, write-once։
Արտեֆակտների պահեստավորման շղթան 'հասանելի դերերով, ամբողջականության վերահսկմամբ։
Կարգավորող ծանուցումներ 'միգրացիայի համար ժամկետներ/ձևանմուշներ (հատկապես ավելացված օրինագծերով/PII)։
Գաղտնիությունը 'PII-ի նվազեցումը և դիմադրությունը վերլուծության ժամանակ։
15) Գործընթացի արդյունավետության մետրիկները
MTTD/MTTA/MTTR-ը զանգվածներով և բյուջեներով։
SEV-ի ճիշտությունը (underrating/overrating)։
Մասնաբաժինը կապված է Avto-mitigait-ի հետ։
Պլեյբուսների ծածկումը առաջին N կոդով (> 90%)։
CAPA-ի կատարումը ժամանակին։
16) Փուլերի ներդրումը
1. Շաբաթ 1: SEV-մատրիցա, on-call դերերը, ընդհանուր քարտերը, war-room կարգավորումը։
2. Շաբաթ 2: Պլեյբուկները լավագույն հինգ ախտանիշների համար (5xx, BD-lag, Kafka-lag, NodeJ tReady, TSA)։
3. Շաբաթը 3: ChatOps/bots, քարտերի ավտո-ստեղծում, հաղորդակցման ձևանմուշներ/StatusPage։
4. Շաբաթ 4 + 'Անվտանգության պլեյբուկներ, PMS-աուտեյջի, Legal Hold, www.drilli/քաոսի խաղեր։
17) «արագ» ռումբերի օրինակներ (բեկորներ)
Rollback API (K8s)
bash kubectl rollout undo deploy/api -n prod kubectl rollout status deploy/api -n prod --timeout=5m
Верификация:
kubectl -n prod top pods -l app=api
Drain node
bash kubectl cordon $NODE && kubectl drain $NODE --ignore-daemonsets --delete-emptydir-data --timeout=10m
Feature-flag OFF (օրինակ)
bash curl -X POST "$FF_URL/toggle" -H "Authorization: Bearer $TOKEN" -d '{"feature":"X","enabled":false}'
18) Mini-FAQ
Ե՞ րբ բարձրացնել SEV-1։
Երբ տառապում է հիմնական SLO/բիզնես գործառույթը (վճարումները, լոգինը, խաղը), և burn-rate «ուտում է» բյուջեն մեկ ժամ առաջ։
Ի՞ նչ ավելի կարևոր է RCA-ն կամ վերականգնումը։
Միշտ կայունացումը, հետո RCA-ն։ Մինչև ավարտը ժամանակը հիմնական ցուցանիշն է։
Արդյո՞ ք ամեն ինչ պետք է ավտոմատիզացնել։
Ավտոմատիզացրեք հաճախակի և անվտանգ քայլերը։ հազվագյուտ/ռիսկային 'կես մեքենայի միջոցով և IC-ի ապացույցը։
Արդյունքը
Մրցույթի հուսալի գործընթացը պահվում է երեք սյուների վրա 'հստակ դերեր և SEV կանոններ, բարձրորակ պլեյբուսներ/ռումբեր ավտոմատիզացիայով և հետմորտեմների մշակույթով առանց պայմանագրերի։ Ամրագրեք ձևանմուշները, վարժեցրեք on-call, չափեք MTTR/սխալ բյուջեն և անընդհատ բարելավեք դետեկտորները և պլեյբուսները, դա ուղղակիորեն նվազեցնում է ռիսկերը և ծախսերը։