هشدار سوزاندن SLO در پرداخت/شرط

نقشه راه عملیاتی

1) چرا شما به آن نیاز دارید

نقشه راه عملیاتی (نقشه راه عملیات) وظایف متفاوت تیم های SRE/پلت فرم/پشتیبانی و دامنه را به یک برنامه شفاف تبدیل می کند: چه تاثیری بر SLO/هزینه/حوادث ما در هر سه ماهه و با چه هزینه ای (مردم، زمان، بودجه). این هرج و مرج را کاهش می دهد، بدهی های فنی را ساده تر می کند و تحویل ارزش به کسب و کار را تسریع می کند.

اهداف:

ابتکارات مربوط به نتایج قابل اندازه گیری (SLO، MTTR، هزینه/RPS، ریسک) را ترکیب کنید.
در مورد اولویت های بین پلت فرم، دامنه ها و ارائه دهندگان خارجی توافق کنید.
منابع بودجه و رفع «آنچه ما انجام نمی دهند» (صریح تجارت آف).
یک حقیقت در مورد اعدام و خطرات نگه دارید.

2) اصول نقشه راه

1. نتیجه اول: هر ابتکار عمل به یک متریک نتیجه وابسته است (نه «پیاده سازی X»، بلکه «کاهش MTTR توسط 20٪»).
2. SLO-آگاه: طرح های موثر بر SLOs از مسیرهای بحرانی (سپرده/شرط/بازی/CCL) در اولویت بالاتر هستند.
3. داده محور: بر اساس حوادث، پس از مرگ، هشدارها، پانل های ظرفیت/FinOps.
4. زمان بسته بندی و برگشت پذیر: افزایش کوچک، آزمایش فرضیه، بازگشت سریع.
5. تنها منبع حقیقت: یک محصول واحد، بررسی منظم و وضعیت عمومی.
6. بدون کار پنهان: خارج از نقشه - فقط «آتش» با توجه به مقررات.

3) قاب نقشه راه: سطوح و مصنوعات

چشم انداز (12-18 ماه): 3-5 موضوعات عملیاتی (قابلیت اطمینان، مقیاس، هزینه، امنیت، اتوماسیون).
ستون ها (6-12 ماه): بلوک های ابتکارات بر اساس موضوع (به عنوان مثال «SLO-coverage of 100% critical paths», «Active-active in 2 regions»).
طرح سه ماهه (Q): ابتکارات خاص با معیارها، صاحبان، وابستگی ها، بودجه.
تکرار (2-3 هفته): وظایف/حماسه و پیشرفت واقعی.

مینی ساختار ابتکار:


ID: OPS-23

4) Prioritization: How to compare the incomparable

4. 1 RICE (Reach, Impact, Confidence, Effort)

Reach: affected users/transactions/geo.
Impact: expected contribution to SLO/MTTR/Cost.
Confidence: Confidence in estimates (data/pilots).
Effort: man-weeks/calendar window/dependencies.

4. 2 WSJF (Scaled)

Cost of Delay = (SLO Risk + Revenue Impact + Compliance + Incident Rate)
/ Job Size = duration/force.
Suitable for mixed initiatives (technical debt, security, platform features).

The rule: initiatives with high SLO risk and high cost of delay come first, even if the effect is "invisible" on UI.

5) Relationship with OKR, SLO and incidents

Platform-level OKR:
KR1: "Reduce Change Failure Rate from 18% to 12% by the end of Q2."
KR2: "Increase Pre-Incident Detect Rate from 35% to 60%."
SLO-matrix: for each domain - target p95/p99/Success Rate/Availability.
Incident analytics: the top 3 reasons for the last quarter should have counteraction initiatives in the current one.

6) Resource and budget planning

FTE-matrix: by squads and competencies (SRE, Observability, Data, Integrations).
Provider calendar: maintenance/quota windows (impact on dates).
CapEx/OpEx: licenses/cluster extensions vs command hours.
Buffer: ~ 15-20% for unplanned "fires" and regulatory tasks.
What-don't-do policy: A list of rescheduled/postponed initiatives with reasons.

7) Managing dependencies and risks

Dependency map: who blocks whom (service/provider/data/command).
Risk register: risk, probability/impact, owner, mitigation plan/plan B.
Change freeze: periods of prohibition of major changes (prime time events/tournaments).
Ficheflags/canaries: Mandatory for initiatives affecting traffic.

8) Quarterly cycle (rhythms)

Q-0 (preparation, 2 weeks): data collection (SLO, incidents, costs), revision of topics, preliminary prioritization.
Q planning: protection of initiatives by owners, reconciliation of resources/risks, fixing the Q plan and "not doing" the list.
Weekly sync: status, blockers, adjustments; maximum 30 minutes.
Monthly review: checking effects on metrics, possible re-scope.
Q retro: compare plan/fact, update principles/patterns.

9) Roadmap view formats

Outcome View: grouped by purpose (SLO, Cost, Risk).
Domain View: Payments/Bets/Games/KYC/Platform.
Timeline View: quarterly, with dependency and frieze markers.
Budget View: FTE/CapEx/OpEx by Initiative and Topic.

Example of a quarterly slice (summary):
Initiative     Outcome              Metrics     Term     Owner     Risk
--------------------      -----------------------      --------------------      -----      -------------      -------
Active-Active Games     RTO≤5 min     Availability 99. 95%      Q1–Q2      platform-sre      High
SLO-burn на Payments     − 30% of late incidents     Pre-Incident↑, MTTR↓      Q1       observability      Average
Kafka Lag Guardrails     − 50% of lag storms     Lag p95↓, DLQ↑         Q1       streaming        Average
FinOps Right-sizing      −15% cost/RPS           Cost/RPS↓           Q2       finops         Low

10) Roadmap Success Metrics (KPIs)

Delivery Predictability: percentage of initiatives completed on time (target ≥ 80%).
SLO Coverage:% of critical paths with active SLOs/alerts.
Incident Trend: − X% of P1/P2 QoQ incidents
Change Failure Rate: Target decline by quarter.
Cost Efficiency: Cost/RPS, Cost/transaction - downward trend.
Risk Burn-down: the number of "red" risks and their total weight.
Stakeholder NPS: satisfaction of domain teams with the quality of the Roadmap.

11) Roadmap launch checklist

[] Defined themes/pillars and 3-5 target outcomes per year.
[] Catalog of initiatives linked to metrics and owners.
[] Prioritization methodology (RICE/WSJF) and scales adopted.
[] Checked resources: FTE, provider windows, budgets.
[] Fixed Q-plan + "not doing."
[] Set up Outcome/Domain/Budget panels, alerts by shifts.
[] Review Schedule: weekly/monthly/quarterly.

12) Anti-patterns

List of tasks without outcomes: "make X" instead of "achieve Y by metric."
Hidden initiatives and private arrangements outside of a single artifact.
Eternal epics: no time-box, no verifiable milestones.
Priority "in terms of volume": resources are spent on the "loudest" request, and not on the most valuable one.
No "what not to do": expectations are unmanageable, trust is falling.
Lack of a link with incidents/SLO: "cosmetic" improvements instead of real ones.

13) Templates (fragments)

Initiative Template (YAML):

YAML ID: عنوان OPS-42: «Guardrails برای قناری آزادی»

موضوع: «قابلیت اطمینان»

چهارم: «2025-Q1»

مالک: «انتشار پلت فرم»

ذینفعان: [«پرداخت»، «شرط»، «بازی»]

نتیجه: «کاهش رگرسیون پس از انتشار توسط 40٪»

متریک:

نام: هدف change_failure_rate: «<= 12٪»
نام: هدف post_deploy_regression_rate: «-40٪ QoQ»
slo_impact: ["api _ p99 <= 300ms @ 99. 9 "" در دسترس بودن "= 99. 95%"]

effort_weeks: 6 برنج:

رسیدن: 5000000 # معاملات/تاثیر QoQ: 3. 0 اعتماد به نفس: 0. تلاش 7:6 وابستگی: [«قابل مشاهده بودن پایه»، «ویژگی پرچم هسته»]

خطرات:

نام: دروازه های دروغین
کاهش: «پایه/تنظیم، خلبان برای 10٪ از ترافیک»

بودجه: fte: 3 capex: 0 نقاط عطف:

نام: طراحی اتا: «2025-01-20»
نام: خلبان-10٪
eta: «2025-02-10»
نام: گسترش - 100٪
eta: «2025-03-05»


Quarterly report template (Markdown):

Q1 عملیات نقشه راه - گزارش

نتیجه: پوشش SLO 92٪ (+ 7 pp)، MTTR − 18٪، هزینه/RPS − 9٪

تکمیل شده: ابتکارات 8/10 (80٪)

شیفت: OPS-31 → Q2 (وابستگی PSP-X)

حوادث: P1 = 2 (− 1 QoQ), دلایل اصلی: retrays در وقفه ارائه دهنده

پیگیری: قطع کننده تنظیم، PSP-Y سهمیه ذخیره


14) ادغام با فرآیندها

مدیریت حادثه: هر پس از مرگ → بلیط ابتکار/بهبود در نقشه راه.
تغییرات/انتشار: ابتکارات عمده فقط با پرچم ها/قناری ها می آیند.
ظرفیت/FinOps: یک بار در ماه هماهنگ سازی با روند سر و هزینه.
ایمنی/انطباق: نقاط کنترل سه ماهه برای الزامات و ممیزی.

15) 30/60/90 (شروع سریع)

30 روز: جمع آوری حوادث/پایه متریک، موضوعات فرم، توصیف 10-15 طرح در فرمت YAML، RICE/WSJF را انتخاب کنید، Q-plan را ثابت کنید.
60 روز: پانل های نتیجه/دامنه/بودجه را راه اندازی کنید، اولین بررسی اواسط سه ماهه را انجام دهید، اولویت های داده را تنظیم کنید.
90 روز: خلاصه Q-نتایج، اصول به روز رسانی و مقیاس، دوباره علامت ستون سالانه.

16) ارتباطات و شفافیت

بررسی ماهانه برای ذینفعان: 30 دقیقه، تمرکز بر نتایج و خطرات.
به روز رسانی آسنکرون: نوشته های کوتاه با معیارهای قبل/بعد.
کانال نقشه راه واحد: وضعیت ها، تغییرات، تصمیمات اولویت.
قانون کارت قرمز: هر تیم می تواند بررسی اولویت را با اتصال داده ها (SLO/حادثه/هزینه) آغاز کند.

17) سوالات متداول

س: اگر همه چیز «در آتش» باشد و زمان در نقشه راه وجود نداشته باشد ؟
A: شامل یک بافر آتش 15-20٪ و حداقل Q-plan از 3 طرح است که علل اصلی حوادث را پوشش می دهد. هر کار «داغ» جدید تنها از طریق اولویت بندی مجدد است.

س: چگونه می توان ارزش ابتکارات «نامرئی» (مشاهده پذیری، autogates) را اثبات کرد ؟
A: تعداد دفعات تغییر نرخ شکست، MTTR، میزان تشخیص قبل از حادثه، بازپرداخت و "صفحات شبانه. "نمایش قبل/بعد از دینامیک.

س: چگونه با بدهی های فنی مقابله کنیم ؟
A: بدهی نیز ابتکار عمل با نتیجه است: «− X٪ از حوادث کلاس N»، «− Y٪ هزینه/RPS»، «+ Z pp. SLO پوشش». بدون یک نتیجه قابل اندازه گیری، بدهی آن را در برنامه قرار نمی دهد.

هشدار سوزاندن SLO در پرداخت/شرط

نقشه راه عملیاتی

Q1 عملیات نقشه راه - گزارش

با ما در تماس باشید

ارتباط سریع

ویدئو به‌زودی به‌روزرسانی می‌شود

ما در حال حاضر بسیار درگیر پروژه‌ها هستیم