GH GambleHub

هشدار سوزاندن SLO در پرداخت/شرط

نقشه راه عملیاتی

1) چرا شما به آن نیاز دارید

نقشه راه عملیاتی (نقشه راه عملیات) وظایف متفاوت تیم های SRE/پلت فرم/پشتیبانی و دامنه را به یک برنامه شفاف تبدیل می کند: چه تاثیری بر SLO/هزینه/حوادث ما در هر سه ماهه و با چه هزینه ای (مردم، زمان، بودجه). این هرج و مرج را کاهش می دهد، بدهی های فنی را ساده تر می کند و تحویل ارزش به کسب و کار را تسریع می کند.

اهداف:
  • ابتکارات مربوط به نتایج قابل اندازه گیری (SLO، MTTR، هزینه/RPS، ریسک) را ترکیب کنید.
  • در مورد اولویت های بین پلت فرم، دامنه ها و ارائه دهندگان خارجی توافق کنید.
  • منابع بودجه و رفع «آنچه ما انجام نمی دهند» (صریح تجارت آف).
  • یک حقیقت در مورد اعدام و خطرات نگه دارید.

2) اصول نقشه راه

1. نتیجه اول: هر ابتکار عمل به یک متریک نتیجه وابسته است (نه «پیاده سازی X»، بلکه «کاهش MTTR توسط 20٪»).
2. SLO-آگاه: طرح های موثر بر SLOs از مسیرهای بحرانی (سپرده/شرط/بازی/CCL) در اولویت بالاتر هستند.
3. داده محور: بر اساس حوادث، پس از مرگ، هشدارها، پانل های ظرفیت/FinOps.
4. زمان بسته بندی و برگشت پذیر: افزایش کوچک، آزمایش فرضیه، بازگشت سریع.
5. تنها منبع حقیقت: یک محصول واحد، بررسی منظم و وضعیت عمومی.
6. بدون کار پنهان: خارج از نقشه - فقط «آتش» با توجه به مقررات.

3) قاب نقشه راه: سطوح و مصنوعات

چشم انداز (12-18 ماه): 3-5 موضوعات عملیاتی (قابلیت اطمینان، مقیاس، هزینه، امنیت، اتوماسیون).
ستون ها (6-12 ماه): بلوک های ابتکارات بر اساس موضوع (به عنوان مثال «SLO-coverage of 100% critical paths», «Active-active in 2 regions»).
طرح سه ماهه (Q): ابتکارات خاص با معیارها، صاحبان، وابستگی ها، بودجه.
تکرار (2-3 هفته): وظایف/حماسه و پیشرفت واقعی.

مینی ساختار ابتکار:

ID: OPS-23

4) Prioritization: How to compare the incomparable

4. 1 RICE (Reach, Impact, Confidence, Effort)

Reach: affected users/transactions/geo.
Impact: expected contribution to SLO/MTTR/Cost.
Confidence: Confidence in estimates (data/pilots).
Effort: man-weeks/calendar window/dependencies.

4. 2 WSJF (Scaled)

Cost of Delay = (SLO Risk + Revenue Impact + Compliance + Incident Rate)
/ Job Size = duration/force.
Suitable for mixed initiatives (technical debt, security, platform features).

The rule: initiatives with high SLO risk and high cost of delay come first, even if the effect is "invisible" on UI.

5) Relationship with OKR, SLO and incidents

Platform-level OKR:
KR1: "Reduce Change Failure Rate from 18% to 12% by the end of Q2."
KR2: "Increase Pre-Incident Detect Rate from 35% to 60%."
SLO-matrix: for each domain - target p95/p99/Success Rate/Availability.
Incident analytics: the top 3 reasons for the last quarter should have counteraction initiatives in the current one.

6) Resource and budget planning

FTE-matrix: by squads and competencies (SRE, Observability, Data, Integrations).
Provider calendar: maintenance/quota windows (impact on dates).
CapEx/OpEx: licenses/cluster extensions vs command hours.
Buffer: ~ 15-20% for unplanned "fires" and regulatory tasks.
What-don't-do policy: A list of rescheduled/postponed initiatives with reasons.

7) Managing dependencies and risks

Dependency map: who blocks whom (service/provider/data/command).
Risk register: risk, probability/impact, owner, mitigation plan/plan B.
Change freeze: periods of prohibition of major changes (prime time events/tournaments).
Ficheflags/canaries: Mandatory for initiatives affecting traffic.

8) Quarterly cycle (rhythms)

Q-0 (preparation, 2 weeks): data collection (SLO, incidents, costs), revision of topics, preliminary prioritization.
Q planning: protection of initiatives by owners, reconciliation of resources/risks, fixing the Q plan and "not doing" the list.
Weekly sync: status, blockers, adjustments; maximum 30 minutes.
Monthly review: checking effects on metrics, possible re-scope.
Q retro: compare plan/fact, update principles/patterns.

9) Roadmap view formats

Outcome View: grouped by purpose (SLO, Cost, Risk).
Domain View: Payments/Bets/Games/KYC/Platform.
Timeline View: quarterly, with dependency and frieze markers.
Budget View: FTE/CapEx/OpEx by Initiative and Topic.

Example of a quarterly slice (summary):
Initiative     Outcome              Metrics     Term     Owner     Risk
--------------------      -----------------------      --------------------      -----      -------------      -------
Active-Active Games     RTO≤5 min     Availability 99. 95%      Q1–Q2      platform-sre      High
SLO-burn на Payments     − 30% of late incidents     Pre-Incident↑, MTTR↓      Q1       observability      Average
Kafka Lag Guardrails     − 50% of lag storms     Lag p95↓, DLQ↑         Q1       streaming        Average
FinOps Right-sizing      −15% cost/RPS           Cost/RPS↓           Q2       finops         Low

10) Roadmap Success Metrics (KPIs)

Delivery Predictability: percentage of initiatives completed on time (target ≥ 80%).
SLO Coverage:% of critical paths with active SLOs/alerts.
Incident Trend: − X% of P1/P2 QoQ incidents
Change Failure Rate: Target decline by quarter.
Cost Efficiency: Cost/RPS, Cost/transaction - downward trend.
Risk Burn-down: the number of "red" risks and their total weight.
Stakeholder NPS: satisfaction of domain teams with the quality of the Roadmap.

11) Roadmap launch checklist

[] Defined themes/pillars and 3-5 target outcomes per year.
[] Catalog of initiatives linked to metrics and owners.
[] Prioritization methodology (RICE/WSJF) and scales adopted.
[] Checked resources: FTE, provider windows, budgets.
[] Fixed Q-plan + "not doing."
[] Set up Outcome/Domain/Budget panels, alerts by shifts.
[] Review Schedule: weekly/monthly/quarterly.

12) Anti-patterns

List of tasks without outcomes: "make X" instead of "achieve Y by metric."
Hidden initiatives and private arrangements outside of a single artifact.
Eternal epics: no time-box, no verifiable milestones.
Priority "in terms of volume": resources are spent on the "loudest" request, and not on the most valuable one.
No "what not to do": expectations are unmanageable, trust is falling.
Lack of a link with incidents/SLO: "cosmetic" improvements instead of real ones.

13) Templates (fragments)

Initiative Template (YAML):

YAML ID: عنوان OPS-42: «Guardrails برای قناری آزادی»

موضوع: «قابلیت اطمینان»

چهارم: «2025-Q1»

مالک: «انتشار پلت فرم»

ذینفعان: [«پرداخت»، «شرط»، «بازی»]

نتیجه: «کاهش رگرسیون پس از انتشار توسط 40٪»

متریک:
  • نام: هدف change_failure_rate: «<= 12٪»
  • نام: هدف post_deploy_regression_rate: «-40٪ QoQ»
  • slo_impact: ["api _ p99 <= 300ms @ 99. 9 "" در دسترس بودن "= 99. 95%"]
effort_weeks: 6 برنج:
  • رسیدن: 5000000 # معاملات/تاثیر QoQ: 3. 0 اعتماد به نفس: 0. تلاش 7:6 وابستگی: [«قابل مشاهده بودن پایه»، «ویژگی پرچم هسته»]
خطرات:
  • نام: دروازه های دروغین
  • کاهش: «پایه/تنظیم، خلبان برای 10٪ از ترافیک»
بودجه: fte: 3 capex: 0 نقاط عطف:
  • نام: طراحی اتا: «2025-01-20»
  • نام: خلبان-10٪
  • eta: «2025-02-10»
  • نام: گسترش - 100٪
  • eta: «2025-03-05»

Quarterly report template (Markdown):

Q1 عملیات نقشه راه - گزارش

نتیجه: پوشش SLO 92٪ (+ 7 pp)، MTTR − 18٪، هزینه/RPS − 9٪

تکمیل شده: ابتکارات 8/10 (80٪)

شیفت: OPS-31 → Q2 (وابستگی PSP-X)

حوادث: P1 = 2 (− 1 QoQ), دلایل اصلی: retrays در وقفه ارائه دهنده

پیگیری: قطع کننده تنظیم، PSP-Y سهمیه ذخیره


14) ادغام با فرآیندها

مدیریت حادثه: هر پس از مرگ → بلیط ابتکار/بهبود در نقشه راه.
تغییرات/انتشار: ابتکارات عمده فقط با پرچم ها/قناری ها می آیند.
ظرفیت/FinOps: یک بار در ماه هماهنگ سازی با روند سر و هزینه.
ایمنی/انطباق: نقاط کنترل سه ماهه برای الزامات و ممیزی.

15) 30/60/90 (شروع سریع)

30 روز: جمع آوری حوادث/پایه متریک، موضوعات فرم، توصیف 10-15 طرح در فرمت YAML، RICE/WSJF را انتخاب کنید، Q-plan را ثابت کنید.
60 روز: پانل های نتیجه/دامنه/بودجه را راه اندازی کنید، اولین بررسی اواسط سه ماهه را انجام دهید، اولویت های داده را تنظیم کنید.
90 روز: خلاصه Q-نتایج، اصول به روز رسانی و مقیاس، دوباره علامت ستون سالانه.

16) ارتباطات و شفافیت

بررسی ماهانه برای ذینفعان: 30 دقیقه، تمرکز بر نتایج و خطرات.
به روز رسانی آسنکرون: نوشته های کوتاه با معیارهای قبل/بعد.
کانال نقشه راه واحد: وضعیت ها، تغییرات، تصمیمات اولویت.
قانون کارت قرمز: هر تیم می تواند بررسی اولویت را با اتصال داده ها (SLO/حادثه/هزینه) آغاز کند.

17) سوالات متداول

س: اگر همه چیز «در آتش» باشد و زمان در نقشه راه وجود نداشته باشد ؟
A: شامل یک بافر آتش 15-20٪ و حداقل Q-plan از 3 طرح است که علل اصلی حوادث را پوشش می دهد. هر کار «داغ» جدید تنها از طریق اولویت بندی مجدد است.

س: چگونه می توان ارزش ابتکارات «نامرئی» (مشاهده پذیری، autogates) را اثبات کرد ؟
A: تعداد دفعات تغییر نرخ شکست، MTTR، میزان تشخیص قبل از حادثه، بازپرداخت و "صفحات شبانه. "نمایش قبل/بعد از دینامیک.

س: چگونه با بدهی های فنی مقابله کنیم ؟
A: بدهی نیز ابتکار عمل با نتیجه است: «− X٪ از حوادث کلاس N»، «− Y٪ هزینه/RPS»، «+ Z pp. SLO پوشش». بدون یک نتیجه قابل اندازه گیری، بدهی آن را در برنامه قرار نمی دهد.
Contact

با ما در تماس باشید

برای هرگونه سؤال یا نیاز به پشتیبانی با ما ارتباط بگیرید.ما همیشه آماده کمک هستیم!

شروع یکپارچه‌سازی

ایمیل — اجباری است. تلگرام یا واتساپ — اختیاری.

نام شما اختیاری
ایمیل اختیاری
موضوع اختیاری
پیام اختیاری
Telegram اختیاری
@
اگر تلگرام را وارد کنید — علاوه بر ایمیل، در تلگرام هم پاسخ می‌دهیم.
WhatsApp اختیاری
فرمت: کد کشور و شماره (برای مثال، +98XXXXXXXXXX).

با فشردن این دکمه، با پردازش داده‌های خود موافقت می‌کنید.