GH GambleHub

התראות SLO-Burn על תשלומים/הימורים

מפת דרכים מבצעית

1) למה אתה צריך את זה

מפת הדרכים המבצעית (Ops Roadmap) הופכת את המשימות הזולות של צוותי התמיכה/תמיכה/פלטפורמות/דומיין לתוכנית שקופה: איזו השפעה תהיה על SLO/עלות/תקריות נקבל בכל רבעון ובאיזה מחיר (אנשים, זמן, תקציב). זה מפחית כאוס, מייעל חובות טכניים ומאיץ את העברת הערך לעסקים.

מטרות:
  • שילוב יוזמות סביב תוצאות מדידות (SLO, MTTR, עלות/RPS, סיכון).
  • תסכימו על סדרי עדיפויות בין הפלטפורמה, התחומים והספקים החיצוניים.
  • תקציב משאבים ותיקון ”מה שאנחנו לא עושים” (החלפה מפורשת).
  • שמור אמת אחת על הוצאה להורג וסיכונים.

2) עקרונות מפת דרכים

1. תוצאה-ראשונה: כל יוזמה קשורה לתוצאה מטרית (לא ”ליישם X”, אלא ”להפחית את MTTR ב-20%”).
2. יוזמות המשפיעות על SLOs של מסלולים קריטיים (הפקדה/הימור/משחקים/CCL) הן בעדיפות גבוהה יותר.
3. מונע נתונים: מבוסס על תקריות, לאחר המוות, התראות, קיבולת/FinOps לוחות.
4. זמן התאגרף & הפיך: שינויים קטנים, בדיקת השערות, גלגול מהיר.
5. מקור אמת יחיד: חפץ יחיד, ביקורות קבועות ומדינות ציבוריות.
6. אין עבודה נסתרת: מהמפה - רק ”אש” לפי התקנות.

3) מסגרת מפת דרכים: רמות וחפצים

חזון (12-18 חודשים): 3-5 נושאים מבצעיים (אמינות, קנה מידה, עלות, אבטחה, אוטומציה).
עמודים (6-12 חודשים): בלוקים של יוזמות לפי נושאים (למשל: SLO-סיקור הנתיבים הקריטיים 100%, Active-Active באזורים 2).
תוכנית רבעונית (Q): יוזמות ספציפיות עם מדדים, בעלים, תלויות, תקציב.
איטרציות (2-3 שבועות): משימות/אפיקים והתקדמות בפועל.

מבנה מיני יוזמה:

ID: OPS-23

4) Prioritization: How to compare the incomparable

4. 1 RICE (Reach, Impact, Confidence, Effort)

Reach: affected users/transactions/geo.
Impact: expected contribution to SLO/MTTR/Cost.
Confidence: Confidence in estimates (data/pilots).
Effort: man-weeks/calendar window/dependencies.

4. 2 WSJF (Scaled)

Cost of Delay = (SLO Risk + Revenue Impact + Compliance + Incident Rate)
/ Job Size = duration/force.
Suitable for mixed initiatives (technical debt, security, platform features).

The rule: initiatives with high SLO risk and high cost of delay come first, even if the effect is "invisible" on UI.

5) Relationship with OKR, SLO and incidents

Platform-level OKR:
KR1: "Reduce Change Failure Rate from 18% to 12% by the end of Q2."
KR2: "Increase Pre-Incident Detect Rate from 35% to 60%."
SLO-matrix: for each domain - target p95/p99/Success Rate/Availability.
Incident analytics: the top 3 reasons for the last quarter should have counteraction initiatives in the current one.

6) Resource and budget planning

FTE-matrix: by squads and competencies (SRE, Observability, Data, Integrations).
Provider calendar: maintenance/quota windows (impact on dates).
CapEx/OpEx: licenses/cluster extensions vs command hours.
Buffer: ~ 15-20% for unplanned "fires" and regulatory tasks.
What-don't-do policy: A list of rescheduled/postponed initiatives with reasons.

7) Managing dependencies and risks

Dependency map: who blocks whom (service/provider/data/command).
Risk register: risk, probability/impact, owner, mitigation plan/plan B.
Change freeze: periods of prohibition of major changes (prime time events/tournaments).
Ficheflags/canaries: Mandatory for initiatives affecting traffic.

8) Quarterly cycle (rhythms)

Q-0 (preparation, 2 weeks): data collection (SLO, incidents, costs), revision of topics, preliminary prioritization.
Q planning: protection of initiatives by owners, reconciliation of resources/risks, fixing the Q plan and "not doing" the list.
Weekly sync: status, blockers, adjustments; maximum 30 minutes.
Monthly review: checking effects on metrics, possible re-scope.
Q retro: compare plan/fact, update principles/patterns.

9) Roadmap view formats

Outcome View: grouped by purpose (SLO, Cost, Risk).
Domain View: Payments/Bets/Games/KYC/Platform.
Timeline View: quarterly, with dependency and frieze markers.
Budget View: FTE/CapEx/OpEx by Initiative and Topic.

Example of a quarterly slice (summary):
Initiative     Outcome              Metrics     Term     Owner     Risk
--------------------      -----------------------      --------------------      -----      -------------      -------
Active-Active Games     RTO≤5 min     Availability 99. 95%      Q1–Q2      platform-sre      High
SLO-burn на Payments     − 30% of late incidents     Pre-Incident↑, MTTR↓      Q1       observability      Average
Kafka Lag Guardrails     − 50% of lag storms     Lag p95↓, DLQ↑         Q1       streaming        Average
FinOps Right-sizing      −15% cost/RPS           Cost/RPS↓           Q2       finops         Low

10) Roadmap Success Metrics (KPIs)

Delivery Predictability: percentage of initiatives completed on time (target ≥ 80%).
SLO Coverage:% of critical paths with active SLOs/alerts.
Incident Trend: − X% of P1/P2 QoQ incidents
Change Failure Rate: Target decline by quarter.
Cost Efficiency: Cost/RPS, Cost/transaction - downward trend.
Risk Burn-down: the number of "red" risks and their total weight.
Stakeholder NPS: satisfaction of domain teams with the quality of the Roadmap.

11) Roadmap launch checklist

[] Defined themes/pillars and 3-5 target outcomes per year.
[] Catalog of initiatives linked to metrics and owners.
[] Prioritization methodology (RICE/WSJF) and scales adopted.
[] Checked resources: FTE, provider windows, budgets.
[] Fixed Q-plan + "not doing."
[] Set up Outcome/Domain/Budget panels, alerts by shifts.
[] Review Schedule: weekly/monthly/quarterly.

12) Anti-patterns

List of tasks without outcomes: "make X" instead of "achieve Y by metric."
Hidden initiatives and private arrangements outside of a single artifact.
Eternal epics: no time-box, no verifiable milestones.
Priority "in terms of volume": resources are spent on the "loudest" request, and not on the most valuable one.
No "what not to do": expectations are unmanageable, trust is falling.
Lack of a link with incidents/SLO: "cosmetic" improvements instead of real ones.

13) Templates (fragments)

Initiative Template (YAML):

yaml id: כותרת OPS-42: ”מעקות שמירה לשחרור קנריות”

נושא: ”מהימנות”

רבע: ”2025-Q1”

בעלים: ”פלטפורמה-שחרור”

בעלי עניין: [ ”תשלומים”, ”הימורים”, ”משחקים” ]

התוצאה: ”הפחתת הרגרסיות לאחר השחרור ב ־ 40 אחוז” ‏

מדדים:
  • שם: היעד change_failure_rate: ”<= 12%”
  • -שם: היעד post_deploy_regression_rate: ”-40% QoQ”
  • slo_impact: [ "api _ p99 <= 300 ms @ 99. 9, "זמינות> = 99. 95%"]
effort_weeks: 6 אורז:
  • להגיע: 5000000 # עסקאות/השפעה QoQ: 3. 0 ביטחון: 0. 7 מאמץ: 6 תלויות: [ ”קו תצפית-בסיס”, ”דגל-ליבה ”]
סיכונים:
  • שם: ”שערי שווא”
  • הפחתה: ”קו בסיס/כוונון, טייס עבור 10% מהתנועה”
תקציב: fte: 3 capex: 0 אבני דרך:
  • שם: eta עיצוב: ”2025-01-20”
  • שם - טייס-10%
  • אטה: ”2025-02-10”
  • שם: rollout-100%
  • אטה: ”2025-03-05”

Quarterly report template (Markdown):

Q1 Ops Roadmap - Report

תוצאה: סיקור SLO 92% (+ 7 pp), MTTR -18%, עלות/RPS -9%

הושלם: 8/10 יוזמות (80%)

משמרות: OPS-31 Q2 (תלות PSP-X)

תקריות: P1 = 2 (1 QoQ), סיבות עיקריות: מגשים מחדש את פסקי הזמן של הספק

מעקבים: מפסק כוונון, מכסות רזרבה PSP-Y


14) אינטגרציה עם תהליכים

ניהול אירוע: כל נתיחה לאחר המוות * כרטיס שיפור/יוזמה במפת הדרכים.
שינויים/שחרורים: יוזמות עיקריות מגיעות רק עם דגלים/קנריות.
קיבולת/FinOps: פעם בחודש סינכרון על ידי חדר ראש ומגמות עלות.
בטיחות/ציות: נקודות בקרה רבעוניות לדרישות וביקורת.

15) 30/60/90 (התחלה מהירה)

30 ימים: לאסוף את התקרית/הבסיס המטרי, ליצור נושאים, לתאר 10-15 יוזמות בפורמט YAML, לבחור RICE/WSJF, לתקן תוכנית Q.
60 ימים: השקת תוצאות/לוחות Domain/Butch, עריכת סקירת אמצע הרבעון הראשון, התאמת סדרי עדיפויות נתונים.
90 יום: לסכם את תוצאות הקיו, לעדכן עקרונות ומאזניים, לסמן מחדש עמודים שנתיים.

16) תקשורת ושקיפות

סקירה חודשית לבעלי עניין: 30 דקות, להתמקד בתוצאות וסיכונים.
עדכונים אסינכרוניים: רישומים קצרים עם מדדים לפני/אחרי.
ערוץ מפת דרכים אחת: סטטוסים, שינויים, החלטות בעדיפות ראשונה.
כלל כרטיס אדום: כל צוות יכול ליזום סקירת עדיפות על ידי הצמדת נתונים (SLO/Incident/Cost).

17) FAQ

קיו: מה אם הכל ”עולה באש” ואין זמן על מפת הדרכים?
א ': לכלול ”חוצץ אש” של 15-20% ותוכנית קיו מינימלית של 3 יוזמות המכסות את הגורמים העיקריים לתקריות. כל עבודה ”חמה” חדשה היא רק באמצעות הרכבה מחדש של סדרי עדיפויות.

Q: כיצד להוכיח את ערכן של יוזמות ”בלתי נראות” (אבחנה, אוטוגטים)?
A: Count Change Pauson Rate, MTTR, Tree-Incident Cate Rate, Pollbacks ו- ”Nightpages”. "הצג לפני/אחרי דינמיקה.

קיו: איך להתמודד עם חוב טכני?
A: חוב הוא גם יוזמה עם תוצאה: ”X% ממקרים מסוג N”, ”Y% עלות/RPS”, ”+ Z pp. SLO Security”. ללא תוצאה מדידה, חוב לא עושה את זה לתכנית.
Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

Telegram
@Gamble_GC
התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.