GH GambleHub

[SEV] Ռուսաստանի նկարագրությունը և ամսաթիվը [SEV]

1) Սկզբունքներն ու մշակույթը

Blameless. Սխալը համակարգի հատկությունն է, ոչ թե մարդը։ Փնտրում ենք «ինչու է դա պատահել», ոչ թե «ով է մեղավոր»։

Փաստերը և ինվարանտները։ Ցանկացած եզրակացություն հիմնված է թայմլեյնի, SLO-ի, ճանապարհների և լույսերի վրա։

Հասարակության ներսում։ Արդյունքները և դասերը հասանելի են հարևան թիմերին։

Գործողությունները ավելի կարևոր են, քան ռուսական։ Փաստաթուղթը անփոփոխ հաստատեց կորած ժամանակը։

Արագ հրատարակություն։ Հետմորտեմի չեռնովիկը 48-72 ժամ հետո։

2) Տաքսոնոմիա և չափանիշներ

Լուրջ (SEV)

SEV1 ամբողջական անհասանելիություն/փողի/տվյալների կորուստ;

SEV2 - նշանակալի դեգրադացիա (սխալներ> SLO, p99 դուրս);

SEV3 - մասնակի քայքայումը/շրջադարձային սցենարը գոյություն ունի։

Ազդեցությունը 'տուժած տարածաշրջանները/տենանտներ/ապրանքներ, տևողությունը, բիզնես մետրերը (փոխադարձություն, GMV, վճարումների մերժումը)։

SLO/սխալ բյուջե. Որքա՞ ն բյուջե է սպառվում, ինչպես դա ազդում է օրինագծերի արագության և փորձերի վրա։

3) Դերեր և գործընթացներ

Incident Commander (IC) 'կառավարում է գործընթացը, գերակայում է այն քայլերը, որոնք անվանում են սեփականատերեր։

Communicational Lead: հայտարարում է steicholders/հաճախորդներ օրինաչափությամբ։

Ops/On-cal. ռոտացիա, միստիգատոր գործողություններ։

Scribe 'ղեկավարում է թայմլայնը և արտեֆակտները։

Matter Experts (SME) - խորը ախտորոշում։

Փուլերը ՝ հայտնաբերումը, որը ցույց է տալիս, թե ինչ է տեղի ունենում։

4) Հետմորտեմա (կառուցվածքը)



5) RCA Techniques (Root Cause Search)

5 Why - sequential clarification of causes to the system level.
Ishikawa (fish bone) - factors "People/Processes/Tools/Materials/Environment/Dimensions."
Event-Chain/Ripple - a chain of events with probabilities and triggers.
Barrier Analysis - which "fuses" (timeouts, breakers, quotas, tests) were supposed to stop the incident and why they did not work.
Change Correlation - correlation with releases, config digs, feature flags, provider incidents.

Practice: Avoid "root cause = person/one bug." Look for a system combination (debt + lack of guard rails + irrelevant runbooks).

6) Communications and transparency

Internal: single channel (war-room), short updates according to the template: status → actions → ETA of the next update.
External: status page/newsletter with facts without "guilt," with apologies and an action plan.
Sensitivity: do not disclose PD/secrets; legal wording to be agreed.
After the incident: a summary note with human language and a link to a technical report.

External update template (brief):
"31 Oct 2025, 13:40 UTC - some users encountered payment errors (up to 18 minutes). The reason is the degradation of the dependent service. We turned on bypass mode and restored operation at 13:58 UTC. Apologies. Within 72 hours, we will publish a report with actions to prevent recurrence"

7) Actions and implementation management

Each action is owner, deadline, acceptance criteria, risk and priority relationship.
Action classes:
1. Engineering: timeout budgets, jitter retreats, breakers, bulkheads, backprescher, stability/chaos tests.
2. Observability: SLI/SLO, alert guards, saturation, traces, steady-state dashboards.
3. Process: runbook update, on-call workouts, game day, CI gates, bipartisan review for risky changes.
4. Architecture: cache with coalescing, outbox/saga, idempotency, limiters/shading.
Gates: releases fail unless "post-mortem critical actions" are closed (Policy as Code).
Verification: retest (chaos/load) confirms the elimination of the risk.

8) Integration of feedback

Sources:
Telemetry: p99/p99 tails. 9, error-rate, queue depth, CDC lag, retray budget.
VoC/Support: topics of calls, CSAT/NPS, churn signals, "pain points."
Product/Analytics: user behavior, failure/friction, drop-off in funnels.
Partners/Integrators: webhook failures, contract incompatibility, SLA timing.

Signal → decision loop:
1. The signal is classified (severity/cost/frequency).
2. An architectural ticket is created with a hypothesis and the price of the problem.
3. Falls into the engineering portfolio (quarterly/monthly), ranked by ROI and risk.
4. Execute → measure effect → update SLI/SLO/cost baselines.

9) Post-mortem maturity metrics

% postmortems published ≤ 72 h (target ≥ 90%).
Average "lead time" from incident to closure of key actions.
Reopen rate of actions (quality of DoD formulations).
Repeated incidents for the same reason (target → 0).
Proportion of incidents caught by guards (breaker/limiter/timeouts) vs "breakthrough."
Saturation of dashboards (SLI covering critical paths) and "noise" of alerts.
Share of game-day/chaos scenarios that simulate detected failure classes.

10) Example of postmortem (summary)

Event: SEV2. Payment API: up p99 to 1. 8s, 3% 5xx, 31 Oct 2025 (13:22–13:58 UTC).
Impact: 12% of payment attempts with retrays, part - cancellation. Erroneous budget q4: − 7%.
Root Cause: "slow success" of currency dependence (p95 + 400 ms), retrai without jitter → cascade.
Barrier failure: the breaker is configured only for 5xx, not for timeouts; there was no rate-cap for low priority.
What worked: hand shading and stale-rates feature flag.
Actions:
Enter timeout budget and jitter retrays (DoD: p99 <400 ms at + 300 ms to dependency).
Breaker for "slow success" and fallback stale data ≤ 15 minutes.
Update runbook "slow dependency," add chaos script.
Add dashboard "served-stale share" and alert at> 10%.
Enter release-gate: without passing chaos-smoke - prohibit release.

11) Artifact patterns

11. 1 Timeline (example)

13: 22:10 Alert p99> 800.1 (gateway)

13: 24:00 IC նշանակված, war-room բաց է

13: 27:30 Նույնականացվել է currency-api «դանդաղ հաջողությունը»։

13: 30:15 Ֆիչի դրոշը stale-rates ON (10%)

13: 41:00 Stale-rates 100 տոկոսը, p99-ը կայունացված է 2401

13: 52:40 Գրանցումների սահմանափակումը gateway

13: 58:00 Պատահականությունը փակված է, 3630min


11. 2 Solutions and Validation (DoD)

Լուծում 'միացրեք breaker (slow _ success)

DoD: chaos-սցենարը «+ 300.1 currency» - p99 <450.1, error _ rate <0։ 5%, stale_share < 12%


11. 3 Policy "gate" (check)

deny_release if any(postmortem_action. status!= "Done" and action. severity in ["critical"])


12) Anti-patterna

«Կախարդների որսը» և պատժը բացատրվում են սխալների թաքցնում, ազդանշանների կորուստ։
Արձանագրությունը արձանագրության համար 'երկար փաստաթղթեր առանց գործողությունների/սեփականատերերի/։
RCA մակարդակի «բագը կոդում» առանց գործոնների։
Պլանավորվում է առանց ռետեստի և բազլինների նորարարման։
Հասարակության բացակայությունը ընկերության ներսում 'նույն սխալների կրկնումը այլ թիմերում։
Անտեսելով հետադարձ կապը սապորտից/գործընկերներից և «անտեսանելի» դեգրադացիայից (դանդաղ հաջողությունը)։
«Բոլորը մաքրեցին, շարժվում ենք» 'առանց փոփոխության ճարտարապետության/գործընթացների մեջ։

13) Ճարտարապետի չեկի թերթիկը

1. Կա մեկ postmortem և SLA հրատարակություններ 2472 ժամ։
2. Դերերը (IC, Comics, Scribe, SME) ինքնաբերաբար նշանակվում են։
3. Թայմլայնները հիմնված են հեռուստացույցի վրա (treiss/metrics/logs) և առյուծների/դրոշների պիտակների վրա։
4. RCA մեթոդները օգտագործվում են համակարգային (5 Why, Ishikawa, Barrier)։
5. Գործողությունները ունեն սեփականատերեր, ժամկետներ և DoD-ներ, որոնք կապված են ֆորումների և խաղերի հետ։
6. Պատահարը հանգեցնում է runbook/xaoc-210/ալերտների նորարարությանը։
7. Ներկառուցված VoC/Supert-ի ալիքները, կան «բարձր ցավերի» հիբրիդային ակնարկ։
8. Սխալ բյուջեն ազդում է օրինագծերի և փորձերի քաղաքականության վրա։
9. Հասունության մետրերը հետևում են (Time-to-postmortem, reopen rate, կրկնություն)։
10. Հասարակական ներքին վերլուծությունները և գիտելիքի հիմքը հասանելի են որոնման հետ։

Եզրակացություն

Հետմորտեմներն ու հետադարձ կապը ճարտարապետության ուսուցման մեխանիզմ են։ Երբ վերլուծությունները առանց հաշվարկների, գործողության չափված ազդեցությունը և ազդանշանների ինտեգրումը դառնում են նորմ, համակարգը ամեն շաբաթ դառնում է ավելի կայուն, ավելի արագ և հասկանալի։ Փաստերը տեսանելի դարձրեք, գործողությունները պարտադիր են, իսկ գիտելիքները մատչելի են, և միջադեպերը վերածվելու են վառելիքի ձեր պլատֆորմի էվոլյուցիայի։
Contact

Կապ հաստատեք մեզ հետ

Կապ հաստատեք մեզ հետ ցանկացած հարցի կամ աջակցության համար։Մենք միշտ պատրաստ ենք օգնել։

Telegram
@Gamble_GC
Սկսել ինտեգրացիան

Email-ը՝ պարտադիր է։ Telegram կամ WhatsApp — ըստ ցանկության։

Ձեր անունը ըստ ցանկության
Email ըստ ցանկության
Թեմա ըստ ցանկության
Նամակի բովանդակություն ըստ ցանկության
Telegram ըստ ցանկության
@
Եթե նշեք Telegram — մենք կպատասխանենք նաև այնտեղ՝ Email-ի дополнение-ով։
WhatsApp ըստ ցանկության
Ձևաչափ՝ երկրի կոդ և համար (օրինակ՝ +374XXXXXXXXX)։

Սեղմելով կոճակը՝ դուք համաձայնում եք տվյալների մշակման հետ։