GH GambleHub

[SEV] Тавсифи кӯтоҳ ва сана

1) Принсипҳо ва фарҳанг

Беайб. Хато моликияти система аст, на шахс. Мо дар ҷустуҷӯи "чаро ин ҳодиса рух дод", на "кӣ айбдор аст".
Далелҳо ва ғайривариантҳо. Ҳама гуна натиҷаҳо ба ҷадвал, SLO, пайгирӣ ва гузоришҳо асос ёфтаанд.
Ошкорбаёнӣ дар дохили ширкат. Ҷамъбаст ва дарсҳо барои гурӯҳҳои марбута дастрасанд.
Амалҳо аз протоколҳо муҳимтаранд. Ҳуҷҷати бетағйир ≡ вақти аз дастрафта.
Нашри зуд. Лоиҳаи постмортема - дар давоми 48-72 соат пас аз ҳодиса.

2) Меъёрҳои таксономия ва ҳодисаҳо

Вазнинӣ (SEV):
  • SEV1 - пурра дастнорас будан/аз даст додани пул/маълумот;
  • SEV2 - таназзули назаррас (хатогиҳо> SLO, p99 дар берун);
  • SEV3 - қисман таназзул/роҳи корӣ вуҷуд дорад.
  • Таъсир: минтақаҳои зарардида/иҷорагирон/маҳсулот, давомнокӣ, нишондиҳандаҳои тиҷорат (табдили, GMV, нокомии пардохт).
  • SLO/буҷаи хато: чӣ қадар буҷа тамом мешавад, чӣ гуна он ба суръати релизҳо ва таҷрибаҳо таъсир мерасонад.

3) Нақшҳо ва раванди ҳодисаҳо

Фармондеҳи ҳодисаҳо (IC): равандро идора мекунад, қадамҳоро авлавият медиҳад, соҳибонро таъин мекунад.
Роҳбари коммуникатсия: Ба тарафҳои манфиатдор/муштариён дар як қолаб иттилоъ медиҳад.
Ops/On-call: барҳамдиҳӣ, амалҳои сабуккунанда.
Scribe: Ҷадвал ва артефактҳоро нигоҳ медорад.
Коршиносони мавзӯи мавзӯъ (КХМ): ташхиси амиқ.

Марҳилаҳо: муайянкунӣ → авҷ гирифтан → стабилизатсия → санҷиш → барқарорсозӣ → постмортсия → ҷорӣ намудани такмилҳо.

4) Қолаби постмортемӣ (сохтор)



5) RCA Techniques (Root Cause Search)

5 Why - sequential clarification of causes to the system level.
Ishikawa (fish bone) - factors "People/Processes/Tools/Materials/Environment/Dimensions."
Event-Chain/Ripple - a chain of events with probabilities and triggers.
Barrier Analysis - which "fuses" (timeouts, breakers, quotas, tests) were supposed to stop the incident and why they did not work.
Change Correlation - correlation with releases, config digs, feature flags, provider incidents.

Practice: Avoid "root cause = person/one bug." Look for a system combination (debt + lack of guard rails + irrelevant runbooks).

6) Communications and transparency

Internal: single channel (war-room), short updates according to the template: status → actions → ETA of the next update.
External: status page/newsletter with facts without "guilt," with apologies and an action plan.
Sensitivity: do not disclose PD/secrets; legal wording to be agreed.
After the incident: a summary note with human language and a link to a technical report.

External update template (brief):
"31 Oct 2025, 13:40 UTC - some users encountered payment errors (up to 18 minutes). The reason is the degradation of the dependent service. We turned on bypass mode and restored operation at 13:58 UTC. Apologies. Within 72 hours, we will publish a report with actions to prevent recurrence"

7) Actions and implementation management

Each action is owner, deadline, acceptance criteria, risk and priority relationship.
Action classes:
1. Engineering: timeout budgets, jitter retreats, breakers, bulkheads, backprescher, stability/chaos tests.
2. Observability: SLI/SLO, alert guards, saturation, traces, steady-state dashboards.
3. Process: runbook update, on-call workouts, game day, CI gates, bipartisan review for risky changes.
4. Architecture: cache with coalescing, outbox/saga, idempotency, limiters/shading.
Gates: releases fail unless "post-mortem critical actions" are closed (Policy as Code).
Verification: retest (chaos/load) confirms the elimination of the risk.

8) Integration of feedback

Sources:
Telemetry: p99/p99 tails. 9, error-rate, queue depth, CDC lag, retray budget.
VoC/Support: topics of calls, CSAT/NPS, churn signals, "pain points."
Product/Analytics: user behavior, failure/friction, drop-off in funnels.
Partners/Integrators: webhook failures, contract incompatibility, SLA timing.

Signal → decision loop:
1. The signal is classified (severity/cost/frequency).
2. An architectural ticket is created with a hypothesis and the price of the problem.
3. Falls into the engineering portfolio (quarterly/monthly), ranked by ROI and risk.
4. Execute → measure effect → update SLI/SLO/cost baselines.

9) Post-mortem maturity metrics

% postmortems published ≤ 72 h (target ≥ 90%).
Average "lead time" from incident to closure of key actions.
Reopen rate of actions (quality of DoD formulations).
Repeated incidents for the same reason (target → 0).
Proportion of incidents caught by guards (breaker/limiter/timeouts) vs "breakthrough."
Saturation of dashboards (SLI covering critical paths) and "noise" of alerts.
Share of game-day/chaos scenarios that simulate detected failure classes.

10) Example of postmortem (summary)

Event: SEV2. Payment API: up p99 to 1. 8s, 3% 5xx, 31 Oct 2025 (13:22–13:58 UTC).
Impact: 12% of payment attempts with retrays, part - cancellation. Erroneous budget q4: − 7%.
Root Cause: "slow success" of currency dependence (p95 + 400 ms), retrai without jitter → cascade.
Barrier failure: the breaker is configured only for 5xx, not for timeouts; there was no rate-cap for low priority.
What worked: hand shading and stale-rates feature flag.
Actions:
Enter timeout budget and jitter retrays (DoD: p99 <400 ms at + 300 ms to dependency).
Breaker for "slow success" and fallback stale data ≤ 15 minutes.
Update runbook "slow dependency," add chaos script.
Add dashboard "served-stale share" and alert at> 10%.
Enter release-gate: without passing chaos-smoke - prohibit release.

11) Artifact patterns

11. 1 Timeline (example)

13: 22:10 Ҳушдор p99> 800ms (дарвоза)

13: 24:00 IC таъин карда шуд, ҳуҷраи ҷангӣ кушода

13: 27:30 асъори api "муваффақияти суст" муайян карда шуд

13: 30:15 Нархҳои кӯҳнаи Ficha-парчам ON (трафики 10%)

13: 41:00 Нархҳои кӯҳна 100%, p99 290ms мӯътадил шуданд

13: 52:40 Маҳдудияти бозгашт ба дарвоза

13: 58:00 Ҳодиса баста шуд, мониторинги 30мин


11. 2 Solutions and Validation (DoD)

Ҳал: имкон медиҳад, ки вайронкунанда (slow_success)

Оё: скрипти бетартибии "+ 300 мм ба асъор" - p99 <450ms, error_rate <0. 5%, stale_share <12%


11. 3 Policy "gate" (check)

deny_release агар бошад (postmortem_action. мақом! = "Иҷро шуд" ва амал. вазнинӣ дар ["интиқодӣ"]


12) Анти-намунаҳо

"Шикори ҷодугар" ва ҷазо → пинҳон кардани хатогиҳо, гум кардани сигналҳо.
Протокол ба хотири протокол: ҳуҷҷатҳои дароз бе амал/соҳибон/мӯҳлатҳо.
Сатҳи OCA "иштибоҳ дар рамз" бидуни омилҳои система.
Бастани ҳодиса бидуни санҷиш ва навсозии пойгоҳҳо.
Набудани ошкорбаёнӣ дар дохили ширкат: такрори хатогиҳои якхела дар дастаҳои дигар.
Нодида гирифтани фикру мулоҳизаҳои дастгирӣ/шарикон ва таназзули "ноаён" (муваффақияти суст).
Хулоса "ҳама чизро собит кард, ҳаракат кард" - ҳеҷ гуна тағирот дар меъморӣ/равандҳо.

13) Рӯйхати назорати меъморон

1. Оё шумо як қолаби ягонаи постмортемӣ ва нашри SLA ≤ 72 соат доред?
2. Оё нақшҳо (IC, Comms, Scribe, SME) ба таври худкор таъин карда мешаванд?
3. Вақтҳо ба телеметрия (роҳҳо/ченакҳо/гузоришҳо) ва тамғакоғазҳо/парчамҳо асос ёфтаанд?
4. Усулҳои RCA ба таври систематикӣ татбиқ карда мешаванд (5 Чаро, Ишикава, Барьер)?
5. Амалҳо дорои соҳибон, мӯҳлатҳо ва Оё D мебошанд, ки бо дарвозаҳои хатар ва озодкунӣ алоқаманданд?
6. Оё ҳодиса скриптҳои/xaoc runbook/xaoc-ро нав мекунад?
7. Каналҳои дарунсохташудаи VOC/Дастгирӣ, оё баррасии мунтазами "дарди боло" вуҷуд дорад?
8. Оё буҷети хато ба сиёсати релизҳо ва таҷрибаҳо таъсир мерасонад?
9. Оё ченакҳои камолот пайгирӣ карда мешаванд (вақт ба постмортем, суръати боз кардан, такрорӣ)?
10. Таҳлили оммавии дохилӣ ва пойгоҳи дониш бо ҷустуҷӯ дастрасанд?

Хулоса

Постмортемҳо ва фикру мулоҳизаҳо механизми омӯзиши меъморӣ мебошанд. Ҳангоми таҳлили бидуни айбдор, таъсири андозагирии амалҳо ва ҳамгироии сигналҳо аз истеҳсолот, система ҳар ҳафта устувортар, тезтар ва равшантар мегардад. Далелҳоро намоён кунед, амалҳо ҳатмӣ ва донишро дастрас кунед ва ҳодисаҳо барои таҳаввулоти платформаи шумо сӯзишворӣ мешаванд.
Contact

Тамос гиред

Барои саволҳо е дастгирӣ ба мо муроҷиат кунед.Мо ҳамеша омодаем!

Telegram
@Gamble_GC
Оғози интегратсия

Email — муҳим аст. Telegram е WhatsApp — ихтиерӣ.

Номи шумо ихтиерӣ
Email ихтиерӣ
Мавзӯъ ихтиерӣ
Паем ихтиерӣ
Telegram ихтиерӣ
@
Агар Telegram нависед — ҷавобро ҳамон ҷо низ мегиред.
WhatsApp ихтиерӣ
Формат: рамзи кишвар + рақам (масалан, +992XXXXXXXXX).

Бо фиристодани форма шумо ба коркарди маълумот розӣ ҳастед.