התראות SLO-Burn על תשלומים/הימורים

מפת דרכים מבצעית

1) למה אתה צריך את זה

מפת הדרכים המבצעית (Ops Roadmap) הופכת את המשימות הזולות של צוותי התמיכה/תמיכה/פלטפורמות/דומיין לתוכנית שקופה: איזו השפעה תהיה על SLO/עלות/תקריות נקבל בכל רבעון ובאיזה מחיר (אנשים, זמן, תקציב). זה מפחית כאוס, מייעל חובות טכניים ומאיץ את העברת הערך לעסקים.

מטרות:

שילוב יוזמות סביב תוצאות מדידות (SLO, MTTR, עלות/RPS, סיכון).
תסכימו על סדרי עדיפויות בין הפלטפורמה, התחומים והספקים החיצוניים.
תקציב משאבים ותיקון ”מה שאנחנו לא עושים” (החלפה מפורשת).
שמור אמת אחת על הוצאה להורג וסיכונים.

2) עקרונות מפת דרכים

1. תוצאה-ראשונה: כל יוזמה קשורה לתוצאה מטרית (לא ”ליישם X”, אלא ”להפחית את MTTR ב-20%”).
2. יוזמות המשפיעות על SLOs של מסלולים קריטיים (הפקדה/הימור/משחקים/CCL) הן בעדיפות גבוהה יותר.
3. מונע נתונים: מבוסס על תקריות, לאחר המוות, התראות, קיבולת/FinOps לוחות.
4. זמן התאגרף & הפיך: שינויים קטנים, בדיקת השערות, גלגול מהיר.
5. מקור אמת יחיד: חפץ יחיד, ביקורות קבועות ומדינות ציבוריות.
6. אין עבודה נסתרת: מהמפה - רק ”אש” לפי התקנות.

3) מסגרת מפת דרכים: רמות וחפצים

חזון (12-18 חודשים): 3-5 נושאים מבצעיים (אמינות, קנה מידה, עלות, אבטחה, אוטומציה).
עמודים (6-12 חודשים): בלוקים של יוזמות לפי נושאים (למשל: SLO-סיקור הנתיבים הקריטיים 100%, Active-Active באזורים 2).
תוכנית רבעונית (Q): יוזמות ספציפיות עם מדדים, בעלים, תלויות, תקציב.
איטרציות (2-3 שבועות): משימות/אפיקים והתקדמות בפועל.

מבנה מיני יוזמה:


ID: OPS-23

4) Prioritization: How to compare the incomparable

4. 1 RICE (Reach, Impact, Confidence, Effort)

Reach: affected users/transactions/geo.
Impact: expected contribution to SLO/MTTR/Cost.
Confidence: Confidence in estimates (data/pilots).
Effort: man-weeks/calendar window/dependencies.

4. 2 WSJF (Scaled)

Cost of Delay = (SLO Risk + Revenue Impact + Compliance + Incident Rate)
/ Job Size = duration/force.
Suitable for mixed initiatives (technical debt, security, platform features).

The rule: initiatives with high SLO risk and high cost of delay come first, even if the effect is "invisible" on UI.

5) Relationship with OKR, SLO and incidents

Platform-level OKR:
KR1: "Reduce Change Failure Rate from 18% to 12% by the end of Q2."
KR2: "Increase Pre-Incident Detect Rate from 35% to 60%."
SLO-matrix: for each domain - target p95/p99/Success Rate/Availability.
Incident analytics: the top 3 reasons for the last quarter should have counteraction initiatives in the current one.

6) Resource and budget planning

FTE-matrix: by squads and competencies (SRE, Observability, Data, Integrations).
Provider calendar: maintenance/quota windows (impact on dates).
CapEx/OpEx: licenses/cluster extensions vs command hours.
Buffer: ~ 15-20% for unplanned "fires" and regulatory tasks.
What-don't-do policy: A list of rescheduled/postponed initiatives with reasons.

7) Managing dependencies and risks

Dependency map: who blocks whom (service/provider/data/command).
Risk register: risk, probability/impact, owner, mitigation plan/plan B.
Change freeze: periods of prohibition of major changes (prime time events/tournaments).
Ficheflags/canaries: Mandatory for initiatives affecting traffic.

8) Quarterly cycle (rhythms)

Q-0 (preparation, 2 weeks): data collection (SLO, incidents, costs), revision of topics, preliminary prioritization.
Q planning: protection of initiatives by owners, reconciliation of resources/risks, fixing the Q plan and "not doing" the list.
Weekly sync: status, blockers, adjustments; maximum 30 minutes.
Monthly review: checking effects on metrics, possible re-scope.
Q retro: compare plan/fact, update principles/patterns.

9) Roadmap view formats

Outcome View: grouped by purpose (SLO, Cost, Risk).
Domain View: Payments/Bets/Games/KYC/Platform.
Timeline View: quarterly, with dependency and frieze markers.
Budget View: FTE/CapEx/OpEx by Initiative and Topic.

Example of a quarterly slice (summary):
Initiative     Outcome              Metrics     Term     Owner     Risk
--------------------      -----------------------      --------------------      -----      -------------      -------
Active-Active Games     RTO≤5 min     Availability 99. 95%      Q1–Q2      platform-sre      High
SLO-burn на Payments     − 30% of late incidents     Pre-Incident↑, MTTR↓      Q1       observability      Average
Kafka Lag Guardrails     − 50% of lag storms     Lag p95↓, DLQ↑         Q1       streaming        Average
FinOps Right-sizing      −15% cost/RPS           Cost/RPS↓           Q2       finops         Low

10) Roadmap Success Metrics (KPIs)

Delivery Predictability: percentage of initiatives completed on time (target ≥ 80%).
SLO Coverage:% of critical paths with active SLOs/alerts.
Incident Trend: − X% of P1/P2 QoQ incidents
Change Failure Rate: Target decline by quarter.
Cost Efficiency: Cost/RPS, Cost/transaction - downward trend.
Risk Burn-down: the number of "red" risks and their total weight.
Stakeholder NPS: satisfaction of domain teams with the quality of the Roadmap.

11) Roadmap launch checklist

[] Defined themes/pillars and 3-5 target outcomes per year.
[] Catalog of initiatives linked to metrics and owners.
[] Prioritization methodology (RICE/WSJF) and scales adopted.
[] Checked resources: FTE, provider windows, budgets.
[] Fixed Q-plan + "not doing."
[] Set up Outcome/Domain/Budget panels, alerts by shifts.
[] Review Schedule: weekly/monthly/quarterly.

12) Anti-patterns

List of tasks without outcomes: "make X" instead of "achieve Y by metric."
Hidden initiatives and private arrangements outside of a single artifact.
Eternal epics: no time-box, no verifiable milestones.
Priority "in terms of volume": resources are spent on the "loudest" request, and not on the most valuable one.
No "what not to do": expectations are unmanageable, trust is falling.
Lack of a link with incidents/SLO: "cosmetic" improvements instead of real ones.

13) Templates (fragments)

Initiative Template (YAML):

yaml id: כותרת OPS-42: ”מעקות שמירה לשחרור קנריות”

נושא: ”מהימנות”

רבע: ”2025-Q1”

בעלים: ”פלטפורמה-שחרור”

בעלי עניין: [ ”תשלומים”, ”הימורים”, ”משחקים” ]

התוצאה: ”הפחתת הרגרסיות לאחר השחרור ב ־ 40 אחוז” ‏

מדדים:

שם: היעד change_failure_rate: ”<= 12%”
-שם: היעד post_deploy_regression_rate: ”-40% QoQ”
slo_impact: [ "api _ p99 <= 300 ms @ 99. 9, "זמינות> = 99. 95%"]

effort_weeks: 6 אורז:

להגיע: 5000000 # עסקאות/השפעה QoQ: 3. 0 ביטחון: 0. 7 מאמץ: 6 תלויות: [ ”קו תצפית-בסיס”, ”דגל-ליבה ”]

סיכונים:

שם: ”שערי שווא”
הפחתה: ”קו בסיס/כוונון, טייס עבור 10% מהתנועה”

תקציב: fte: 3 capex: 0 אבני דרך:

שם: eta עיצוב: ”2025-01-20”
שם - טייס-10%
אטה: ”2025-02-10”
שם: rollout-100%
אטה: ”2025-03-05”


Quarterly report template (Markdown):

Q1 Ops Roadmap - Report

תוצאה: סיקור SLO 92% (+ 7 pp), MTTR -18%, עלות/RPS -9%

הושלם: 8/10 יוזמות (80%)

משמרות: OPS-31 Q2 (תלות PSP-X)

תקריות: P1 = 2 (1 QoQ), סיבות עיקריות: מגשים מחדש את פסקי הזמן של הספק

מעקבים: מפסק כוונון, מכסות רזרבה PSP-Y


14) אינטגרציה עם תהליכים

ניהול אירוע: כל נתיחה לאחר המוות * כרטיס שיפור/יוזמה במפת הדרכים.
שינויים/שחרורים: יוזמות עיקריות מגיעות רק עם דגלים/קנריות.
קיבולת/FinOps: פעם בחודש סינכרון על ידי חדר ראש ומגמות עלות.
בטיחות/ציות: נקודות בקרה רבעוניות לדרישות וביקורת.

15) 30/60/90 (התחלה מהירה)

30 ימים: לאסוף את התקרית/הבסיס המטרי, ליצור נושאים, לתאר 10-15 יוזמות בפורמט YAML, לבחור RICE/WSJF, לתקן תוכנית Q.
60 ימים: השקת תוצאות/לוחות Domain/Butch, עריכת סקירת אמצע הרבעון הראשון, התאמת סדרי עדיפויות נתונים.
90 יום: לסכם את תוצאות הקיו, לעדכן עקרונות ומאזניים, לסמן מחדש עמודים שנתיים.

16) תקשורת ושקיפות

סקירה חודשית לבעלי עניין: 30 דקות, להתמקד בתוצאות וסיכונים.
עדכונים אסינכרוניים: רישומים קצרים עם מדדים לפני/אחרי.
ערוץ מפת דרכים אחת: סטטוסים, שינויים, החלטות בעדיפות ראשונה.
כלל כרטיס אדום: כל צוות יכול ליזום סקירת עדיפות על ידי הצמדת נתונים (SLO/Incident/Cost).

17) FAQ

קיו: מה אם הכל ”עולה באש” ואין זמן על מפת הדרכים?
א ': לכלול ”חוצץ אש” של 15-20% ותוכנית קיו מינימלית של 3 יוזמות המכסות את הגורמים העיקריים לתקריות. כל עבודה ”חמה” חדשה היא רק באמצעות הרכבה מחדש של סדרי עדיפויות.

Q: כיצד להוכיח את ערכן של יוזמות ”בלתי נראות” (אבחנה, אוטוגטים)?
A: Count Change Pauson Rate, MTTR, Tree-Incident Cate Rate, Pollbacks ו- ”Nightpages”. "הצג לפני/אחרי דינמיקה.

קיו: איך להתמודד עם חוב טכני?
A: חוב הוא גם יוזמה עם תוצאה: ”X% ממקרים מסוג N”, ”Y% עלות/RPS”, ”+ Z pp. SLO Security”. ללא תוצאה מדידה, חוב לא עושה את זה לתכנית.

התראות SLO-Burn על תשלומים/הימורים

מפת דרכים מבצעית

Q1 Ops Roadmap - Report

צרו קשר

חיבור מהיר

הווידאו יעודכן בקרוב

אנחנו עמוסים מאוד בפרויקטים כרגע