GH GambleHub

SLO, SLA וניטור אמינות

(סעיף: טכנולוגיה ותשתיות)

תקציר

SLO היא מטרה באיכות פנימית, SLA היא מחויבות חיצונית ללקוח, SLO היא הדרך בה אנו מודדים איכות. ב-iGaming, key SLIs: API וזמינות התשלום, p95/p99 latency של מסלולים קריטיים, Time-to-Wallet (TTW), המרת תשלום, השקת משחק ומקטרות תור. ניהול אמינות בנוי סביב תקציב של שגיאות, התראות רב-צריבה, שערי שחרור ברורים ולוחות מחוונים חזותיים עם הערות.

1) תנאים והבדלים

(SLI (Service Level Indicator - אינדיקטור נמדד (לדוגמה: פרופורציה של בקשות מוצלחות בכל חלון זמן).
(SLO (Service Level Objective - ערך מטרה SLI (למשל. "זמינות 99. 9% ב-30 יום".
SLA (הסכם רמת שירות) - חוזה/התחייבות עם פיצוי; מבוסס על סל "ד אמיתי, אבל כולל סעיפים משפטיים וחלונות תחזוקה מתוכננים.

חוק: קודם לייצב את SLI/SLO בפנים, ורק אז לתקן את SLA בחוץ.

2) מסגרת SLI עבור iGaming

TexSLO

זמינות: הצלחה 2xx/3xx/כל הבקשות.
Latency: p95/p99 על ידי מסלולי מפתח ('/הפקדה ', '/הימור', '/משחק/init ').
שגיאות: 5 xx שיתוף/פסק זמן.
רוויה/תורים: דחיית תשלום/תורים העברה.

עסקים SLI

המרת תשלום: ”הצלחה/ניסיון”.
טי-וו פי-95: זמן בקשת משיכה להרשמה.
תחילת משחק הצלחה: הפעלות משחק, אתחול ספק.
הצלחה בזרימה של KYC/AML.

3) תקציב שגיאה: כיצד לספור

תקצוב שגיאה = 1 -SLO.
דוגמה: זמינות 99 SLO. תקצוב שגיאות 9 %/30d = 0. 1% מהזמן 43min 12 בחלון של 30 יום.

עבור שיתוף SLI:

success_ratio = success_requests / all_requests error_ratio  = 1 - success_ratio

SLO מונה חלון גלישה (30/7/1) ונראה על לוחות מחוונים.

מדיניות השימוש:
  • ”בעירה” מהירה של התקציב * הקפאה משחררת, אנחנו עוצרים את הכנרית, אנחנו עובדים על יציבות.
  • Group Many # מאפשר שינויים תכופים יותר (מבוקרים).

4) דוגמאות ל ־ SLO לזרימות מפתח

תשלומים API:
  • זמינות ב-99. 9 %/30d
  • Latency p95 '/הפקדה 'Name 250 ms/30Name
  • המרת תשלום קו בסיס 0. 3 %/24h
  • TTW p95 (פלט) 3min/24h
ספקי משחקי API/משחק:
  • הצלחת המשחק ב-99. 5 %/7.p95 משחק init 600 ms/7.v
משרד אחורי/דוחות:
  • הצלחה בעבודה היא 99 %/7 e, lag <5 min (חלונות שיא בנפרד).

5) מדידה: נוסחאות ו ־ PromQL (רעיונות)

הצלחה של בקשות:
promql sum(rate(http_requests_total{status=~"2..    3..",service="payments-api"}[5m]))
/
sum(rate(http_requests_total{service="payments-api"}[5m]))
p95 latency:
promql histogram_quantile(0. 95,
sum by (le) (rate(http_request_duration_seconds_bucket{service="payments-api",route="/deposit"}[5m])))
TW p95 (היסטוגרמה לאירוע):
promql histogram_quantile(0. 95,
sum by (le) (rate(ttw_seconds_bucket{flow="withdrawal"}[15m])))
המרת תשלום:
promql sum(rate(payments_success_total[15m])) / sum(rate(payments_attempt_total[15m]))

6) התראות שרפה (חלון מרובה)

הרעיון: אנו משווים את התעריף הנוכחי של צריכת תקציב עם אחד מותר.

דוגמה ל-SLO 99. 9%:
  • צריבה מהירה: 14 תקציב × 1 שעה # עמוד 5-15 דקות.
  • כוויה איטית: 6 תקציבים ב-24 שעות כרטיס, ניתוח סיבות.
פסאודו-חוקים:
yaml recording rule: job:http:success_ratio — заранее alert: SLOFastBurn expr: (1 - job:http:success_ratio{job="payments-api"}) > (1 - 0. 999) 14 for: 10m labels: { severity: "page" }

alert: SLOSlowBurn expr: (1 - job:http:success_ratio{job="payments-api"}) > (1 - 0. 999) 6 for: 1h labels: { severity: "ticket" }

7) לוחות מחוונים ”כרטיס SLO” ומערכת הפעלה

רמה עליונה (מפה):
  • כרטיסי שירות: זמינות, p95, שיעור שגיאה, שיעור צריבה, איזון תקציבי שגיאה.
  • מסננים: env ',' אזור ',' דייר ',' גרסה '.
  • שחרר הערות: Git SHA, סוג (קנרית/כחול-ירוק), החלף זמן.
תרגיל למטה:
  • יציבה נגד השוואה כנרית.
  • סעיף על ידי ספקי PSP/משחק.
  • עבור למופת (trace_id) וליומנים קשורים.
  • תור לאג ורוויה (השתמש במדדים).

8) תהליכים: שערים, הקפאה, הסלמה

שערים בתקליטור: קידום קנרי מותר רק כאשר מבצעים פרוקסי SLO (זמינות, p95, conv).
הקפאה: עם צריבה מהירה או איזון תקציבי אפס - לעצור משחרר עד התאוששות.
הסלמה: מטריצת SEV (SEV1 תשלומים/הפקדות, SEV2 משחקים, SEV3 מחפר).
ניתוח ללא חיובים, עדכון בדיקות/גבולות/פישפלאגים.

9) נתונים/ML-SLO (למחדשים/LLM)

Latency: p95 response model 300 ms (או אסימונים/S N).
פרוקסי איכות: פרופורציה של תגובות תקפות/רעילות נמוכה, שיתוף של מועיל.
רעננות: גיל התכונות/נתונים שעות X.
עלות ל-1 אלף אירועים: הוצאות בתקציב.
שערי SLO משולבים בשיחרור מודלים (A/B/Canary rollout).

10) עיצוב SLA המבוסס על SLO

בחר באס-אל-או שמרני כבסיס לאס-אה.
הגדר חריגים (פעילויות מתוכננות, ספקים תלויים חיצוניים, הליכי תקרית).
הזן קיזוזים על ידי הפרת רמות (אשראי/הנחה), דיווח ומנגנוני אימות.

11) שגיאות תכופות ותבניות אנטי

אין SLO, רק ”uptime 100%” הוא לא מציאותי, מוריד מוטיבציה ומסתיר סיכונים.
התראות ל ”כל מטרי” במקום לשרוף קצב - התראה-פאטיג ולהתעלם.
MII ערבוב במדדים/יומנים עבור סיכוני ציות SLO.
הקרדינליות מתפוצצת: "user _ id/session _ id' כתוויות.
חוסר הערות שחרור - קשה לקשר השפלה עם שינוי.
תקציב שגיאה אטום - הצוות לא מבין מתי ”אתה יכול” לקחת סיכונים.
SLO אינו קשור למדדים עסקיים - מדדים טכניים הם ”ירוקים”, הכנסות הן ”אדומים”.

12) רשימת מימושים

1. אשרו את ה ־ SLIS הבסיסי (זמינות, p95/p99, קצב שגיאה, TTW, המרה).
2. הגדר את ה ־ SLO על חלונות 30/7/1 ביום וספור את תקציב השגיאות.
3. הוספת כללי הקלטה והתראות בקצב צריבה (מהיר/איטי).
4. לבנות מפת SLO עם הערות שחרור והשוואות כנרית/יציבה.
5. כולל שערים בדיסק: ללא SLO-ok - ללא קידום.
6. הזן הליכי הקפאה ומטריצת הסלמה.
7. קישור SLOs למדדים עסקיים (conv, TTW) ודרכי תשלום.
8. עבור נתונים/ML, הגדר latency/איכות/רעננות-SLO.
9. RCAs רגיל ותיקוני SLO/סף (רבעון).
10. SLAs מסמך רק לאחר SLO התייצב.

13) דוגמאות ליעדים ”מוכנים” (בתור התחלה) ‏

זמינות 99. 9 %/30d; p95 בלימה 250 ms/30d; שגיאה מדרגה 0. 3 %/30d

תשלומים: המרה לקו הבסיס 0. 3 %/24h; TW p95 3min/24h

משחקים: הצלחה 99. 5 %/7d; p95 פר 600 ms/7

עבודות במשרד אחורי: הצלחה ב-99 %/7nd; lag some 5 min/7 d

LLM/Reco: אסימונים/S/N, ויול רעילות. 0. 5 %/7 d, רעננות 6h.

תקציר

גישת SLO/SLA הופכת אמינות מ ”יותר טוב מאתמול” לדיסציפלינה מדידה: SLII שקוף, תקציב שגיאה מובן, התראות למהירות בעירה, לוחות מחוונים מובנים ושערים איכותיים הבנויים ליציאה. קונטור זה נותן לפלטפורמת ה-iGaming p95/p99 צפויה, תשלומים יציבים ו-TTW, כלומר הכנסות טובות יותר ופחות תקריות בשעות החמות ביותר.

Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

Telegram
@Gamble_GC
התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.