GH GambleHub

Միջադեպերը և MSE պլեյբուկները

1) Ի՞ նչ է պատահարը, և ինչպե՞ ս է այն կապված SLO-ի հետ։

Դեպքը մի իրադարձություն է, որը խախտում է SLO/պաշտոնական գործառույթը կամ ստեղծում է խախտման ռիսկ (սխալ բյուջեն անընդունելի է)։

Դասական մետրերը ՝ MTTD, MTTA, MTTR, MTBF։

Բյուջեի սխալը և burn-rate որոշում են շարժասանդուղքների գերակայությունը և պատուհանները։

2) Լրջության մակարդակները (SEV) և չափանիշները

SEVՆշանըԱզդեցությունըMTTR նպատակը
SEV-1Խախտվել է կրիտիկական SLO/ամբողջական down հիմնականի համարԲոլոր օգտագործողները/վճարումները60 րոպե
SEV-2Դեգրադացիա (p95 լատենտ, 5x/վճարման սխալներ)Կարևոր մասը244 ժամ
SEV-3Տեղական խնդիրները/բեյզլինները մերժվում ենԱռանձին ծառայություն/տարածք241 աշխատանքային օր
SEV-4Պոտենցիալ ռիսկ/դեֆեկտ առանց իրական ազդեցությանՖիքսների պատրաստումըպլանի համաձայն

SEV-ի ձգիչները '5xx%, r95> շեմն, ստացիոնար decom spike, Kafka-lag> շեմն, NodeJ tReady> X մինը, TSA-ն ավարտվում է <7 օր, DDoS/արտահոսքի ազդանշաններ։

3) Դերեր և պատասխանատվություն (RACI)

Incident Commander (IC) - որոշումների միակ ընդունումը, առաջադրանքների հոսքի կառավարումը, SEV կարգավիճակը փոխելը։

Ops Lead (Tech Lead) - տեխնոլոգիական ռազմավարություն, վարկածներ, ֆիքսների համակարգումը։

Communicational Lead (Comics) - apdeits (ներքին/արտաքին), StatusPage/chat/փոստ։

Scribe (Chrome) - թայմլայնը, լուծումները, արտեֆակտները, գրաֆիկայի/լոգայի հղումները։

On-call Engineers/SMES-ը պլեյբուսների գործողությունների կատարումն է։

Express/Privacy - ներառված են անվտանգության միջադեպերի կամ PII-ի ժամանակ։

FinOps/Payments-ը, երբ ազդում է բիլինգի/PSA/արժեքը։

4) Կյանքի ցիկլը

1. Մանկական (alert/report/սինթետիկ) բացատրվում է քարտի ստեղծումը։

2. Եռյակը (IC նշանակվել է, SEV-ը նշանակված է, հավաքվում է համապատասխան կոնտեքստը)։

3. Կայունացում (mitigation: անջատել fich/rollbek/rate-limit/failover)։

4. Հետազոտություն (RCA վարկածներ, փաստերի հավաքումը)։

5. Մրցույթի վերականգնումը (validate SLO, դիտարկումը)։

6. Հաղորդակցություն (ներսում/դրսում, վերջնական զեկույցը)։

7. Postmortem (առանց պայմանագրերի, CAPA պլանը, սեփականատերերը, ժամկետները)։

8. Systvention (թեստեր/ալերտներ/պլեյբուսներ/դրոշներ, թիմի կրկնօրինակումը)։

5) Հաղորդակցություն և «war-room»

Մրցույթի միասնական ալիքը («# inc-sev1-YYYYMMDD-hmm»), միայն փաստերն ու գործողությունները։

Ռադիո-արձանագրության թիմերը '"IC: Ես նշանակում եմ rollback տարբերակը 1։ 24 նոյեմբերի ETA 10 րոպե"։

Կարգավիճակը 'SEV-1 յուրաքանչյուր 15 րոպե, SEV-2' յուրաքանչյուր 30-60 ռուբլիներ

Status Page/արտաքին հաղորդակցությունը Comics Lead-ի միջոցով։

Արգելվում է 'զուգահեռ «հանգիստ» սենյակները, անպարկեշտ վարկածները ընդհանուր ալիքի մեջ։

6) Ալերտինգը և SLO-burn (կանոնների օրինակ)

Արագ ջրանցքը (1-5 րոպե) և դանդաղ ջրանցքը (1-2 ժամ) burn-rate։

Մուլտֆիլմի ազդանշաններ 'բյուջեի սխալ, 5xx%, p95, Kafka-lag, ստացիոնար decom-rate, սինթետիկ։

Առաջին պատճառը փնտրելը միայն ախտանիշներից հետո է։

Օրինակներ (ընդհանրացված)

promql
Error rate 5xx> SLO sum (rate (http_requests_total{status=~"5"..}[5m]) )/sum (rate (http_requests_total[5m]))> 0. 01

Burn-rate fast (example)
(sum(rate(http_requests_total{status=~"5.."}[1m])) / sum(rate(http_requests_total[1m])))
/ (1 - SLO) > 14. 4

7) Պլեյբուկի vs ranbuki

Pleybuk-ը գործողությունների սցենարն է, ինչպիսիք են (ճյուղերը, պայմանները, ռիսկերը)։

Ռանբուկը քայլերի/հրամանների կոնկրետ քարտեզն է (ստուգումներ, ֆիքսներ, հավատալիքներ)։

Կանոն 'պլեյբուկը տեղադրված է մի քանի ռումբերի վրա (rollbacks, feature-flags, failover, մասշտաբով, արգելափակումով և այլն)։

8) Քարտեր

yaml id: INC-YYYYMMDD-XXXX title: "[SEV-1] Рост 5xx на API /payments"
status: active    monitoring    resolved sev: 1 reported_at: 2025-11-03T17:42Z ic: <ФИО>
ops_lead: <name>
comms_lead: <name>
scope: regions: [eu-west-1], tenants: [prod], services: [api, payments]
impact: "5xx = 12% (usually <0. 5%), deposit conversion -20%"
mitigation: "rollback to 1. 23. 4, rate-limit 2k rps on, feature X off"
timeline:
- "17:42: alert SLO burn-rate fast"
- "17:46: IC appointed, war-room open"
- "17:52: release 1 found. 24 as a candidate"
- "18:02: Rollback complete, 5xx back to 0. 3%"
artifacts:
dashboards: [...]
logs: [...]
traces: [...]
risk: "another surge is possible when turning on feature X"
next_steps: "canary release, tests, postmortem until 2025-11-05"

9) SNE պլեյբուկա (Markdown)

markdown
Playbook: <title>
Area/symptoms
List of detectors, signatures in metrics/logs/traces.

Triage & Mitigation
- [] Restrict traffic/enable WAF rule/OFF feature
- [] Rollback/canary release/roll out configuration fix
- [] Enable degradation mode (read-only, cache force)

Diagnostics (RCA hints)
- Metrics:... Logs:... Trails:...
- Common Root Causes/Hypothesis Checklist

Risks and communications
- Internal/external updates, SLA obligations

Verification
- [] SLO restored (threshold/window time)
- [] No recourse for related services

Follow-up
- CAPA, tasks in backlog, updating alerts/dashboards/playbook

10) Տիպիկ պլեյբուսներ

10. 1 API 5xx Spike

Կայունացում 'անջատել խնդրահարույց ֆիչեֆլագը։ բարձրացնել API կրկնօրինակները; միացրեք cashing; արձագանքը։

Ախտորոշումը 'diff roada, սխալներ լոգարաններում (top-porteptions), p95, pressure BD/kesa։

Ռիսկերը 'կասկադ ածխաջրածիններում/backends։

10. 2 БД: replication lag / lock storm

Կայունացում 'ծանր ջոբների/ռեպորտերի դադարեցում; ուղղել ընթերցանությունը վարպետին; բարձրացնել wal _ buffers/կրկնվող արցունքները։

Ախտորոշումը 'երկար գործարքներ, որոնք արգելափակում են հարցումները, պլանի փոփոխությունները։

Ամրագրում 'ինդեքսներ/հինտներ, ջոբների վերակառուցում, հարցումների բացահայտում։

10. 3 Kafka consumer lag

Կայունացում 'ժամանակավորապես ավելացնել consumer' a; նվազեցնել արտադրությունը քննադատական ծառայություններից; բարձրացնել կուսակցությունները/քվոտաները։

Ախտորոշումը 'rebalances, դանդաղ դեսերալիզացիա, GC-դադարներ։

Վերիֆիկացիան 'լագը կապված է նպատակային նշանակության հետ, ոչ էլ այլն։

10. 4 K8s NodeJ tReady/ռեսուրս փոթորիկ

Կայունացում ՝ don + entain; վերաբաշխել բեռը; Ստուգել CNI/overlay; անջատել աղմկոտ DaemonLine 'ները։

Ախտորոշումը 'www.k pressure, OFC, throttling, network drops։

Կանխարգելումը 'pod www.ruption budgets, ռեսուրսային լիմիտներ/reques.ru։

10. 5 TFC/հավաստագրերը լրանում են

Կայունացում 'գաղտնի/ingress հարկադիր նորարարություն; ժամանակավոր override.

Ախտորոշումը 'վստահության շղթա, clock-ew։

Կանխարգելումը 'T-30/T-7/T-1, Auto-renual ալտերտերը։

10. 6 DDoS/աննորմալ ստանդարտ

Կայունացում ՝ WAF/բոտային կանոններ, rate-limit/geo ֆիլտրեր, upstream shed load։

Ախտորոշումը 'հարձակման պրոֆիլները (L3/4/7), աղբյուրները, «հովանոցները»։

Կանխարգելումը 'anycom, autoscaling, cashing, play-nice պրովայդերների հետ։

10. 7 Ստացիոնար PSA-աուտեյջ

Կայունացում 'smart-routing այլընտրանքային PMS/մեթոդների վրա; բարձրացնել retry հետ jitter; UI-ի «փափուկ» քայքայումը։

Ախտորոշումը 'spike ձախողումներ կոդերով, API/PSA կարգավիճակները։

Հաղորդակցություն 'թափանցիկ ապդեյտներ բիզնեսի և կոշիկի համար, ND/կոնվերսիայի ճիշտ վիճակագրությունը։

10. 8 Անվտանգության դեպք/PII արտահոսք

Կայունացում 'հանգույցների մեկուսացում/գաղտնաբառ-ինդուկցիա, էքսպոզիցիայի արգելափակում, Legal Hold։

Ախտորոշումը 'տիմլայնային հասանելիություն, որոնք ազդում են սուբյեկտների/դաշտերի վրա։

Ծանուցումներ ՝ կարգավորիչներ/գործընկերներ/օգտագործողներ միգրացիայի պահանջներին։

Կանխարգելումը ՝ www.DLP/հատվածներ, «leportprivilege»։

11) Պլեյբուկների ավտոմատիզացիան

ChatOps թիմերը ՝ "/ic no. sev 1 ", "/deploy rollback api 1։ 23. 4`, `/feature off X`.

Runbook-bots: կես-ավտոմատ քայլերը (wwww.ain node, flip traff, purge cache)։

Winf-healing huks: դետեկտորը ստանդարտ mitigation (rate-limit, restart, scale)։

Քարտերի/timline-ի և թիմերի ստեղծումը։

12) Պլեյբուսների որակը 'չեկ թերթ

  • Պարզ ախտանիշներ և դետեկտորներ (մետրեր/լոգներ/հետքեր)։
  • Արագ քայլերը կապված են ռիսկի գնահատման հետ։
  • Թիմերը/ջութակները արդիական են, ստուգված են staging-ում։
  • SLO վերականգնման վերականգնումը։
  • Հաղորդակցման ձևանմուշները և արտաքին ապդեյթների չափանիշները։
  • Postmortem հղում և CAPA փակվելուց հետո։

13) Postmortem (blameless) և CAPA

Նպատակը 'սովորել, ոչ թե գտնել մեղավոր։

Բովանդակությունը 'ինչ տեղի ունեցավ, ինչպես հայտնաբերեցին, որ լավ/վատ էր, գործոնների ներդրումը (այդ + գործընթացները), վիրահատությունները կանխելու համար։

Ժամանակահատվածը 'SEV-1 - 48 ժամ; SEV-2-3 աշխատանքային օր։

CAPA 'կոնկրետ սեփականատերեր, ժամկետներ, չափելի էֆեկտներ (MTTR/MTTD աճը)։

14) Իրավական ասպեկտները և ապացույցների հիմքը

Legal Hold: Logs/trass/alerts, write-once։

Արտեֆակտների պահեստավորման շղթան 'հասանելի դերերով, ամբողջականության վերահսկմամբ։

Կարգավորող ծանուցումներ 'միգրացիայի համար ժամկետներ/ձևանմուշներ (հատկապես ավելացված օրինագծերով/PII)։

Գաղտնիությունը 'PII-ի նվազեցումը և դիմադրությունը վերլուծության ժամանակ։

15) Գործընթացի արդյունավետության մետրիկները

MTTD/MTTA/MTTR-ը զանգվածներով և բյուջեներով։

SEV-ի ճիշտությունը (underrating/overrating)։

Մասնաբաժինը կապված է Avto-mitigait-ի հետ։

Պլեյբուսների ծածկումը առաջին N կոդով (> 90%)։

CAPA-ի կատարումը ժամանակին։

16) Փուլերի ներդրումը

1. Շաբաթ 1: SEV-մատրիցա, on-call դերերը, ընդհանուր քարտերը, war-room կարգավորումը։

2. Շաբաթ 2: Պլեյբուկները լավագույն հինգ ախտանիշների համար (5xx, BD-lag, Kafka-lag, NodeJ tReady, TSA)։

3. Շաբաթը 3: ChatOps/bots, քարտերի ավտո-ստեղծում, հաղորդակցման ձևանմուշներ/StatusPage։

4. Շաբաթ 4 + 'Անվտանգության պլեյբուկներ, PMS-աուտեյջի, Legal Hold, www.drilli/քաոսի խաղեր։

17) «արագ» ռումբերի օրինակներ (բեկորներ)

Rollback API (K8s)

bash kubectl rollout undo deploy/api -n prod kubectl rollout status deploy/api -n prod --timeout=5m
Verification:
kubectl -n prod top pods -l app=api

Drain node

bash kubectl cordon $NODE && kubectl drain $NODE --ignore-daemonsets --delete-emptydir-data --timeout=10m

Feature-flag OFF (օրինակ)

bash curl -X POST "$FF_URL/toggle" -H "Authorization: Bearer $TOKEN" -d '{"feature":"X","enabled":false}'

18) Mini-FAQ

Ե՞ րբ բարձրացնել SEV-1։

Երբ տառապում է հիմնական SLO/բիզնես գործառույթը (վճարումները, լոգինը, խաղը), և burn-rate «ուտում է» բյուջեն մեկ ժամ առաջ։

Ի՞ նչ ավելի կարևոր է RCA-ն կամ վերականգնումը։

Միշտ կայունացումը, հետո RCA-ն։ Մինչև ավարտը ժամանակը հիմնական ցուցանիշն է։

Արդյո՞ ք ամեն ինչ պետք է ավտոմատիզացնել։

Ավտոմատիզացրեք հաճախակի և անվտանգ քայլերը։ հազվագյուտ/ռիսկային 'կես մեքենայի միջոցով և IC-ի ապացույցը։

Արդյունքը

Մրցույթի հուսալի գործընթացը պահվում է երեք սյուների վրա 'հստակ դերեր և SEV կանոններ, բարձրորակ պլեյբուսներ/ռումբեր ավտոմատիզացիայով և հետմորտեմների մշակույթով առանց պայմանագրերի։ Ամրագրեք ձևանմուշները, վարժեցրեք on-call, չափեք MTTR/սխալ բյուջեն և անընդհատ բարելավեք դետեկտորները և պլեյբուսները, դա ուղղակիորեն նվազեցնում է ռիսկերը և ծախսերը։

Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։