GH GambleHub

Միջադեպերը և MSE պլեյբուկները

1) Ի՞ նչ է պատահարը, և ինչպե՞ ս է այն կապված SLO-ի հետ։

Դեպքը մի իրադարձություն է, որը խախտում է SLO/պաշտոնական գործառույթը կամ ստեղծում է խախտման ռիսկ (սխալ բյուջեն անընդունելի է)։

Դասական մետրերը ՝ MTTD, MTTA, MTTR, MTBF։

Բյուջեի սխալը և burn-rate որոշում են շարժասանդուղքների գերակայությունը և պատուհանները։


2) Լրջության մակարդակները (SEV) և չափանիշները

SEVՆշանըԱզդեցությունըMTTR նպատակը
SEV-1Խախտվել է կրիտիկական SLO/ամբողջական down հիմնականի համարԲոլոր օգտագործողները/վճարումները60 րոպե
SEV-2Դեգրադացիա (p95 լատենտ, 5x/վճարման սխալներ)Կարևոր մասը244 ժամ
SEV-3Տեղական խնդիրները/բեյզլինները մերժվում ենԱռանձին ծառայություն/տարածք241 աշխատանքային օր
SEV-4Պոտենցիալ ռիսկ/դեֆեկտ առանց իրական ազդեցությանՖիքսների պատրաստումըպլանի համաձայն

SEV-ի ձգիչները '5xx%, r95> շեմն, ստացիոնար decom spike, Kafka-lag> շեմն, NodeJ tReady> X մինը, TSA-ն ավարտվում է <7 օր, DDoS/արտահոսքի ազդանշաններ։


3) Դերեր և պատասխանատվություն (RACI)

Incident Commander (IC) - որոշումների միակ ընդունումը, առաջադրանքների հոսքի կառավարումը, SEV կարգավիճակը փոխելը։

Ops Lead (Tech Lead) - տեխնոլոգիական ռազմավարություն, վարկածներ, ֆիքսների համակարգումը։

Communicational Lead (Comics) - apdeits (ներքին/արտաքին), StatusPage/chat/փոստ։

Scribe (Chrome) - թայմլայնը, լուծումները, արտեֆակտները, գրաֆիկայի/լոգայի հղումները։

On-call Engineers/SMES-ը պլեյբուսների գործողությունների կատարումն է։

Express/Privacy - ներառված են անվտանգության միջադեպերի կամ PII-ի ժամանակ։

FinOps/Payments-ը, երբ ազդում է բիլինգի/PSA/արժեքը։


4) Կյանքի ցիկլը

1. Մանկական (alert/report/սինթետիկ) բացատրվում է քարտի ստեղծումը։

2. Եռյակը (IC նշանակվել է, SEV-ը նշանակված է, հավաքվում է համապատասխան կոնտեքստը)։

3. Կայունացում (mitigation: անջատել fich/rollbek/rate-limit/failover)։

4. Հետազոտություն (RCA վարկածներ, փաստերի հավաքումը)։

5. Մրցույթի վերականգնումը (validate SLO, դիտարկումը)։

6. Հաղորդակցություն (ներսում/դրսում, վերջնական զեկույցը)։

7. Postmortem (առանց պայմանագրերի, CAPA պլանը, սեփականատերերը, ժամկետները)։

8. Systvention (թեստեր/ալերտներ/պլեյբուսներ/դրոշներ, թիմի կրկնօրինակումը)։


5) Հաղորդակցություն և «war-room»

Մրցույթի միասնական ալիքը («# inc-sev1-YYYYMMDD-hmm»), միայն փաստերն ու գործողությունները։

Ռադիո-արձանագրության թիմերը '"IC: Ես նշանակում եմ rollback տարբերակը 1։ 24 նոյեմբերի ETA 10 րոպե"։

Կարգավիճակը 'SEV-1 յուրաքանչյուր 15 րոպե, SEV-2' յուրաքանչյուր 30-60 ռուբլիներ

Status Page/արտաքին հաղորդակցությունը Comics Lead-ի միջոցով։

Արգելվում է 'զուգահեռ «հանգիստ» սենյակները, անպարկեշտ վարկածները ընդհանուր ալիքի մեջ։


6) Ալերտինգը և SLO-burn (կանոնների օրինակ)

Արագ ջրանցքը (1-5 րոպե) և դանդաղ ջրանցքը (1-2 ժամ) burn-rate։

Մուլտֆիլմի ազդանշաններ 'բյուջեի սխալ, 5xx%, p95, Kafka-lag, ստացիոնար decom-rate, սինթետիկ։

Առաջին պատճառը փնտրելը միայն ախտանիշներից հետո է։

Օրինակներ (ընդհանրացված)

promql
Ошибочная доля 5xx > SLO sum(rate(http_requests_total{status=~"5.."}[5m])) / sum(rate(http_requests_total[5m])) > 0.01

Burn-rate быстрый (пример)
(sum(rate(http_requests_total{status=~"5.."}[1m])) / sum(rate(http_requests_total[1m])))
/ (1 - SLO) > 14.4

7) Պլեյբուկի vs ranbuki

Pleybuk-ը գործողությունների սցենարն է, ինչպիսիք են (ճյուղերը, պայմանները, ռիսկերը)։

Ռանբուկը քայլերի/հրամանների կոնկրետ քարտեզն է (ստուգումներ, ֆիքսներ, հավատալիքներ)։

Կանոն 'պլեյբուկը տեղադրված է մի քանի ռումբերի վրա (rollbacks, feature-flags, failover, մասշտաբով, արգելափակումով և այլն)։


8) Քարտեր

yaml id: INC-YYYYMMDD-XXXX title: "[SEV-1] Рост 5xx на API /payments"
status: active    monitoring    resolved sev: 1 reported_at: 2025-11-03T17:42Z ic: <ФИО>
ops_lead: <ФИО>
comms_lead: <ФИО>
scope: regions: [eu-west-1], tenants: [prod], services: [api, payments]
impact: "5xx=12% (обычно <0.5%), конверсия депозитов -20%"
mitigation: "откат на 1.23.4, включен rate-limit 2k rps, фича X выключена"
timeline:
- "17:42: алерт SLO burn-rate быстрый"
- "17:46: назначен IC, открыт war-room"
- "17:52: найден релиз 1.24 как кандидат"
- "18:02: откат завершен, 5xx вернулись к 0.3%"
artifacts:
dashboards: [...]
logs: [...]
traces: [...]
risk: "возможен очередной всплеск при включении фичи X"
next_steps: "канареечный релиз, тесты, постмортем до 2025-11-05"

9) SNE պլեյբուկա (Markdown)

markdown
Плейбук: <название>
Область/симптомы
Список детекторов, сигнатуры в метриках/логах/трассах.

Быстрая стабилизация (Triage & Mitigation)
- [ ] Ограничить трафик/включить WAF-правило/фичефлаг OFF
- [ ] Роллбэк/канареечный релиз/выкатить фикс конфигурации
- [ ] Включить деградационный режим (read-only, кэш-форс)

Диагностика (RCA hints)
- Метрики: … Логи: … Трассы: …
- Частые первопричины/чек-лист гипотез

Риски и коммуникации
- Внутренние/внешние апдейты, SLA-обязательства

Верификация
- [ ] SLO восстановлено (порог/время окна)
- [ ] Нет регресса по смежным сервисам

Последующие действия
- CAPA, задачи в backlog, обновление алертов/дашбордов/плейбука

10) Տիպիկ պլեյբուսներ

10. 1 API 5xx Spike

Կայունացում 'անջատել խնդրահարույց ֆիչեֆլագը։ բարձրացնել API կրկնօրինակները; միացրեք cashing; արձագանքը։

Ախտորոշումը 'diff roada, սխալներ լոգարաններում (top-porteptions), p95, pressure BD/kesa։

Ռիսկերը 'կասկադ ածխաջրածիններում/backends։

10. 2 БД: replication lag / lock storm

Կայունացում 'ծանր ջոբների/ռեպորտերի դադարեցում; ուղղել ընթերցանությունը վարպետին; բարձրացնել wal _ buffers/կրկնվող արցունքները։

Ախտորոշումը 'երկար գործարքներ, որոնք արգելափակում են հարցումները, պլանի փոփոխությունները։

Ամրագրում 'ինդեքսներ/հինտներ, ջոբների վերակառուցում, հարցումների բացահայտում։

10. 3 Kafka consumer lag

Կայունացում 'ժամանակավորապես ավելացնել consumer' a; նվազեցնել արտադրությունը քննադատական ծառայություններից; բարձրացնել կուսակցությունները/քվոտաները։

Ախտորոշումը 'rebalances, դանդաղ դեսերալիզացիա, GC-դադարներ։

Վերիֆիկացիան 'լագը կապված է նպատակային նշանակության հետ, ոչ էլ այլն։

10. 4 K8s NodeJ tReady/ռեսուրս փոթորիկ

Կայունացում ՝ don + entain; վերաբաշխել բեռը; Ստուգել CNI/overlay; անջատել աղմկոտ DaemonLine 'ները։

Ախտորոշումը 'www.k pressure, OFC, throttling, network drops։

Կանխարգելումը 'pod www.ruption budgets, ռեսուրսային լիմիտներ/reques.ru։

10. 5 TFC/հավաստագրերը լրանում են

Ախտորոշումը 'վստահության շղթա, clock-ew։

Կայունացում 'գաղտնի/ingress հարկադիր նորարարություն; ժամանակավոր override.

Կանխարգելումը 'T-30/T-7/T-1, Auto-renual ալտերտերը։

10. 6 DDoS/աննորմալ ստանդարտ

Կայունացում ՝ WAF/բոտային կանոններ, rate-limit/geo ֆիլտրեր, upstream shed load։

Ախտորոշումը 'հարձակման պրոֆիլները (L3/4/7), աղբյուրները, «հովանոցները»։

Կանխարգելումը 'anycom, autoscaling, cashing, play-nice պրովայդերների հետ։

10. 7 Ստացիոնար PSA-աուտեյջ

Կայունացում 'smart-routing այլընտրանքային PMS/մեթոդների վրա; բարձրացնել retry հետ jitter; UI-ի «փափուկ» քայքայումը։

Ախտորոշումը 'spike ձախողումներ կոդերով, API/PSA կարգավիճակները։

Հաղորդակցություն 'թափանցիկ ապդեյտներ բիզնեսի և կոշիկի համար, ND/կոնվերսիայի ճիշտ վիճակագրությունը։

10. 8 Անվտանգության դեպք/PII արտահոսք

Կայունացում 'հանգույցների մեկուսացում/գաղտնաբառ-ինդուկցիա, էքսպոզիցիայի արգելափակում, Legal Hold։

Ախտորոշումը 'տիմլայնային հասանելիություն, որոնք ազդում են սուբյեկտների/դաշտերի վրա։

Ծանուցումներ ՝ կարգավորիչներ/գործընկերներ/օգտագործողներ միգրացիայի պահանջներին։

Կանխարգելումը ՝ www.DLP/հատվածներ, «leportprivilege»։


11) Պլեյբուկների ավտոմատիզացիան

ChatOps թիմերը ՝ "/ic no. sev 1 ", "/deploy rollback api 1։ 23. 4`, `/feature off X`.

Runbook-bots: կես-ավտոմատ քայլերը (wwww.ain node, flip traff, purge cache)։

Winf-healing huks: դետեկտորը ստանդարտ mitigation (rate-limit, restart, scale)։

Քարտերի/timline-ի և թիմերի ստեղծումը։


12) Պլեյբուսների որակը 'չեկ թերթ

  • Պարզ ախտանիշներ և դետեկտորներ (մետրեր/լոգներ/հետքեր)։
  • Արագ քայլերը կապված են ռիսկի գնահատման հետ։
  • Թիմերը/ջութակները արդիական են, ստուգված են staging-ում։
  • SLO վերականգնման վերականգնումը։
  • Հաղորդակցման ձևանմուշները և արտաքին ապդեյթների չափանիշները։
  • Postmortem հղում և CAPA փակվելուց հետո։

13) Postmortem (blameless) և CAPA

Նպատակը 'սովորել, ոչ թե գտնել մեղավոր։

Բովանդակությունը 'ինչ տեղի ունեցավ, ինչպես հայտնաբերեցին, որ լավ/վատ էր, գործոնների ներդրումը (այդ + գործընթացները), վիրահատությունները կանխելու համար։

Ժամանակահատվածը 'SEV-1 - 48 ժամ; SEV-2-3 աշխատանքային օր։

CAPA 'կոնկրետ սեփականատերեր, ժամկետներ, չափելի էֆեկտներ (MTTR/MTTD աճը)։


14) Իրավական ասպեկտները և ապացույցների հիմքը

Legal Hold: Logs/trass/alerts, write-once։

Արտեֆակտների պահեստավորման շղթան 'հասանելի դերերով, ամբողջականության վերահսկմամբ։

Կարգավորող ծանուցումներ 'միգրացիայի համար ժամկետներ/ձևանմուշներ (հատկապես ավելացված օրինագծերով/PII)։

Գաղտնիությունը 'PII-ի նվազեցումը և դիմադրությունը վերլուծության ժամանակ։


15) Գործընթացի արդյունավետության մետրիկները

MTTD/MTTA/MTTR-ը զանգվածներով և բյուջեներով։

SEV-ի ճիշտությունը (underrating/overrating)։

Մասնաբաժինը կապված է Avto-mitigait-ի հետ։

Պլեյբուսների ծածկումը առաջին N կոդով (> 90%)։

CAPA-ի կատարումը ժամանակին։


16) Փուլերի ներդրումը

1. Շաբաթ 1: SEV-մատրիցա, on-call դերերը, ընդհանուր քարտերը, war-room կարգավորումը։

2. Շաբաթ 2: Պլեյբուկները լավագույն հինգ ախտանիշների համար (5xx, BD-lag, Kafka-lag, NodeJ tReady, TSA)։

3. Շաբաթը 3: ChatOps/bots, քարտերի ավտո-ստեղծում, հաղորդակցման ձևանմուշներ/StatusPage։

4. Շաբաթ 4 + 'Անվտանգության պլեյբուկներ, PMS-աուտեյջի, Legal Hold, www.drilli/քաոսի խաղեր։


17) «արագ» ռումբերի օրինակներ (բեկորներ)

Rollback API (K8s)

bash kubectl rollout undo deploy/api -n prod kubectl rollout status deploy/api -n prod --timeout=5m
Верификация:
kubectl -n prod top pods -l app=api

Drain node

bash kubectl cordon $NODE && kubectl drain $NODE --ignore-daemonsets --delete-emptydir-data --timeout=10m

Feature-flag OFF (օրինակ)

bash curl -X POST "$FF_URL/toggle" -H "Authorization: Bearer $TOKEN" -d '{"feature":"X","enabled":false}'

18) Mini-FAQ

Ե՞ րբ բարձրացնել SEV-1։

Երբ տառապում է հիմնական SLO/բիզնես գործառույթը (վճարումները, լոգինը, խաղը), և burn-rate «ուտում է» բյուջեն մեկ ժամ առաջ։

Ի՞ նչ ավելի կարևոր է RCA-ն կամ վերականգնումը։

Միշտ կայունացումը, հետո RCA-ն։ Մինչև ավարտը ժամանակը հիմնական ցուցանիշն է։

Արդյո՞ ք ամեն ինչ պետք է ավտոմատիզացնել։

Ավտոմատիզացրեք հաճախակի և անվտանգ քայլերը։ հազվագյուտ/ռիսկային 'կես մեքենայի միջոցով և IC-ի ապացույցը։


Արդյունքը

Մրցույթի հուսալի գործընթացը պահվում է երեք սյուների վրա 'հստակ դերեր և SEV կանոններ, բարձրորակ պլեյբուսներ/ռումբեր ավտոմատիզացիայով և հետմորտեմների մշակույթով առանց պայմանագրերի։ Ամրագրեք ձևանմուշները, վարժեցրեք on-call, չափեք MTTR/սխալ բյուջեն և անընդհատ բարելավեք դետեկտորները և պլեյբուսները, դա ուղղակիորեն նվազեցնում է ռիսկերը և ծախսերը։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։