GH GambleHub

יכולת תצפית ושליטה במצב

1) מטרות ועקרונות

מטרה: להבין ”מה קורה” ו ”למה” בזמן אמת כדי למנוע אירועים ולהתאושש במהירות מבלי להפר את SLO או לנפח את OPEX.
עקרונות: SLO-first, ”אותות זהב” (latency, movel, tiews, rovation), תקן טלמטריה יחיד (OpenTelemetry), פרטים מספיקים, יכולת הסברה, מודעות עלות.

2) שכבות יכולת תצפית

1. מטריצות: אגרגטים עבור SLI/SLO, קיבולת ומגמות (מודלים של RED/USE).
2. עקבות: רשתות סיבתיות של בקשות, תשלומים ועסקאות משחק.
3. יומנים/אירועים: הקשר מפורט וביקורת של פעולות אופרטור/שירות.
4. סינתטיקה (קופסה שחורה): בדיקת API/web path, PSP/KYC pings.
5. RUM (משתמש אמיתי): מדדים קדמיים (TTFB, LCP, שגיאות JS), פרוסות גיאו/התקן.
6. טלמטריה ברמה נמוכה: eBPF/CPU פרופיל/IO/Alloc, עיכובים אחוריים ברשת.

3) סט SLI ואותות מוזהבים

Latency: p50/p95/p999 על ידי נתיבים קריטיים (התחברות, הפקדה, קצב, משיכה).
שגיאות: נתח של 5xx/timeout/down (מנורמל על ידי ספקים/בנקים).

תנועה/דרך: RPS/TPS, הפעלות פעילות, אירועים/שניות

רוויה: CPU/RAM/IO Load, עומק התור, שימוש בבריכה, פיגור בשכפול.
Business SLI: מרבצים מוצלחים/% שיעור לחלון, סטיות המרה של KYC/PSP, נתח שרצים.

4) ארכיטקטורת טלמטריה

הזרקה סטנדרטית: OpenTelemetry SDK/אספן נורמליזציה, דגימה, מסנני פרטיות * אחסון (TSDB, עקבות, יומנים).
קורלציה: trace-id/span-id בלוגים ובמטרים (מופת); מתאם יחיד עבור תשלומים/אירועי משחקים.
טופולוגיה: גרף שירות, ספקים חיצוניים תלויים עם סלים חיים.
ניהול עלויות: רמות שימור, צבירה, דגימה דינמית, שיעורי אחסון ”חם ”/” קר ”.

5) מטריות: עיצוב וקרדינליות

כללים: מספר קטן של תוויות, איסור על קרדינליות גבוהה (autID, ID) בסדרת הזמן; פרטים כאלה - רק במסלולים/יומנים.
RED/USY: בקשות-שגיאות-משך זמן (Process-tieveration-perAPI; ניצול-רוויה-שגיאות לתשתית.
מופת: קשירת אחוזים גבוהים לדוגמאות ספציפיות.
מדדים עסקיים: $/RPS, בנק PSP/GEO המרה, עמידות לספק.

6) איתור: עומק ודגימה

הקשר: אנחנו זורקים את הקשר העקבות דרך החלק הקדמי = AFI = ac brookers = = מעבדי מסדי נתונים = PSP.
דגימה: 1-10% בסיסיים, עם חריגות - עלייה דינמית לפי הכללים (מבוססי זנב).
מיקוד: זרימת תשלום (init auth auth capture/settle), עסקאות משחק (bet ac.set), KYC (init ac.ac.
אנוטציות: PSP-קוד תגובה, Bank-BIN/issuer-קטגוריה, אזור, שיעור סיכון.

7) יומנים וביקורות

יומנים מובנים: JSON, רמה אחר פרופיל (INFO on the prod, DEBUG IN DEBUG).
מסנני פרטיות: מיסוך מח "ש, איסור על מסמכים גולמיים של ה-KYC ביומנים.
אירועי ביקורת: מי/מה/איפה/מתי/למה, כרטיס מזהה, קדם/פוסט ערכים עבור עסקאות בסיכון גבוה (בונוסים, גבולות, ניתוב PSP).
חוסר רגישות: תולעת/בלתי ניתנת לשינוי, חתימה, שמירה על ידי מדיניות.

8) בקרת מצב (בריאות)

לביאה/מוכנות/סטארט ־ אפ: דגימות נכונות (לא בודקות תלות חיצונית בלביאה).
מצב מושפל: דגלי פירוק שירות מפורשים כך שהתראות ודף המצב עקביים.
בריאות תקציבית: תקציב שגיאת שרפה (חלון מהיר/איטי), חדר ראש על ידי משאבים ותורים.

9) התראה ואזהרה מוקדמת

התראות SLO: על פי תקציב השגיאה (חלונות של 4 שעות ו-1 שעות) במקום ה ”גולמי” p95.
אנומליות: STL/IQR/Online גלאים עבור התפרצויות 5xx, הרשאות PSP טיפה ב GEO/בנק מסוים.
אנחנו מקשרים התראות עם המשחררים האחרונים/פישפלאגים/עבודה מתוכננת.
ספרי ריצה: לכל התראה יש קישורים לספר משחקים, גרפים, ”בדיקות מהירות”.

10) לוחות מחוונים (מי רואה מה)

Exec: uptime/SLO, burn-rate-rates, preductions/RPS.
SRE/פלטפורמה: RED/USE by service, תורים/lag, שימוש בבריכה, lag שכפול, CDN/WAF, פרופילי eBPF.
תשלומים/סיכון: הצלחה באישורים של PSP/Bank/GEO, הידרדרות רכה/קשה, זמן KYC, אותות מקדימים.
תמיכה/CS: פאנל מצב אירוע, SLAs תגובה, מקרוס FAQ.

11) כושר תצפית של FinOps-Observation

שימור: 7-14 ימים עבור מסלולים ”גולמיים”, יחידות ארוכות יותר; שירותים חמים באופן סלקטיבי.
דגימה/צבירה: דגימה דינמית על ידי אנומליה, ירידה של סדרות ישנות.
מדיניות בלע: ניתוק רעש (רישומי בריאות, יומנים מיותרים), מכסות למדדי קרדינליות גבוהים.
עלות KPI: $/GB בלע, $/עקבות, $/SLI לוח מחוונים; ביקורות תקופתיות של אוכלי עליון.

12) פרטיות וציות

PII/Finance: מיסוך, טוקניזציה, מזעור נתונים בטלמטריה.
גיאו-לוקליזציה: אחסון ועיבוד על ידי תחום שיפוט; יצוא יומן - רק באמצעות זורם עבודה מאושר עם הצפנה ו TTL.
גישת ביקורת לטלמטריה: RBAC/ABAC, SOD להעלאה, רישום בקשה.

13) אינטגרציה עם ניהול אירוע ומשחרר

עמוד מצב: עדכון אוטומטי של כרטיס התקרית.
שער שחרור: ניתוח כנרית SLI, שחרור אוטומטי בקצב צריבה> סף.
ציר זמן משבילים/יומנים, סלים אמיתיים וחלונות הפרה.

14) פרקטיקת יישום (8-12 שבועות)

נד. 1-2: מלאי של נתיבים קריטיים ו-SLI; בחירת ערימות (OTEL, TSDB, יומנים, עקבות); מפת התלות.
נד. 3-4: מימוש OTEL בשירותי מפתח 3-5 (התחברות/הפקדה/קצב), RED/USE בסיסי, איתור הקשר ביומנים.
נד. 5-6: SLO והתראות בקצב צריבה; סינתטיים לפי PSP/KYC; ספרי הריצות הראשונים; רום לרשת/ניידת.
נד. 7-8: דגימה דינמית, מופת, מפת שירות; לוחות מחוונים של Exec/SRE/תשלומים.
נד. 9-10: eBPF/צוואר בקבוק חם פרופיל; מסנני פרטיות; מכסות/חזרות.
נד. 11-12: שערי שחרור וחזרה אוטומטית על ידי SLI; אינטגרציה עם התורות של דף הסטטוס.

15) תבניות חפץ

כרטיס SLO של השירות: SLI, מטרות, חלונות, תקציב שגיאות, התראות, בעלים.
מפרט התראה: מצב/מטרי, סף, דום/שתיקה, מקבלים, מדפים.
לוח מחוונים: קהל, שאלות, 6-8 ווידג 'טים, מקור נתונים, קצב רענון.
מדיניות טלמטריה: אילו שדות מותרים/אסורים, שימור, מיסוך, יצוא.
Cost Review Pack: Top Series/Log Streams, Sampling Expect/TTL, צפוי חיסכון.

16) פונקציית תצפית KPI

MTTA/MTR (שיפור לאחר יישום התראת SLO).
% מהתקריות שאותרו על ידי סינתטיקה/SLI לפני תלונות המשתמש.
פרופורציה של שחרור שעבר את השער באמצעות SLI ללא התערבות ידנית.
ירידה ב $/RPS לטלמטריה תוך שמירה על אבחון.
כיסוי עקבות של נתיבים קריטיים (> 90%).
דיוק של קורלציה ”עדכון מצב ↔ SLIs בפועל”.

17) תרופות אנטי ־ פטריות

”יומן הכל” = פיצוץ של עלות ורעש.
התראות על מדדים ”גולמיים” במקום SLO/Burn-rate-ach-bager-aig.
קרדינליות גבוהה של מדדים (averID) = סופות TSDB.
שבילים ללא הקשר עסקי (PSP/Bank/GEO) = אין תובנה.
אין התאגדות של יכולת תצפית עם שחרור/תקריות * טלמטריה חי בנפרד.

סך הכל

מערכת מנוהלת: נכון SLI/SLO # טלמטריה סטנדרטית וקורלציה * התראת SLO וספרי ריצה = אינטגרציה עם שחרור ותקשורת סטטוס = פעולה מודעת עלות ופרטיות. לולאה זו נותנת אותות מוקדמים, RCA מהיר והתאוששות עסקית אפילו בפסגות תנועה קיצוניות.

Contact

צרו קשר

פנו אלינו בכל שאלה או צורך בתמיכה.אנחנו תמיד כאן כדי לעזור.

Telegram
@Gamble_GC
התחלת אינטגרציה

Email הוא חובה. Telegram או WhatsApp — אופציונליים.

השם שלכם לא חובה
Email לא חובה
נושא לא חובה
הודעה לא חובה
Telegram לא חובה
@
אם תציינו Telegram — נענה גם שם, בנוסף ל-Email.
WhatsApp לא חובה
פורמט: קידומת מדינה ומספר (לדוגמה, +972XXXXXXXXX).

בלחיצה על הכפתור אתם מסכימים לעיבוד הנתונים שלכם.