אשכולות טלמטריה
1) מטרה והקשר
זרם טלמטריה מספק זרם מתמשך של נתונים תצפיתיים על ביצועי הפלטפורמה: מה קורה, למה וכמה זה עולה. ב-iGaming, זהו המפתח לגילוי מוקדם של הפקדה/הידרדרות הימור, ראות של ספקים חיצוניים (אולפני PSP/KYC/game studios) ואולפני SLO/ציות.
2) מפת מקור טלמטריה
Metrics (TSDB): RED/USE, business SLI (הצלחה באישורים,% מהימורים מוצלחים).
OTEL: שרשראות של בקשות דרך החזית = API ac brokers = מסד נתונים/PSP.
יומנים (מובנים): אירועים, פעולות ביקורת, טעויות.
רום: TTFB/LCP, שגיאות JS, גיאו/התקן.
סינתטיים: עסקאות ניסוי חיצוניות (התחברות/הפקדה/שיעור חול) מ-GEOs שונים.
טלמטריה ברמה נמוכה: eBPF/CPU פרופיל/IO/alloc, רשת p95/p99.
סטטוסים חיצוניים: webhooks/PSP/KYC/CDN/WAF.
3) סטנדרטים ותוכניות
OpenTelemetry as lingua franca: איחוד של סמנטיקה מיוחסת (שירות. שם, פריסה. סביבה, אנדוזר. זיהוי - רעולי פנים, עקבות/SpanID, קודי PSP).
מוסכמות סכימה: ורסינציה, סכימה לרישום/שבילים, ”שבירת שינויים” רק דרך הדגל הבינארי ותקופת החסד.
קורלציה-ID: "מתאם יחיד _ id' עבור תשלום/הימור דרך כל השכבות + מופת באחוזים מטריים.
4) מסוע הזרקה (ברמה גבוהה)
1. יצרנים: SDK/סוכנים/אספנים (Otel Collector on Nodes).
2. חציצה: תורים מקומיים (זיכרון/דיסק) עם גבולות.
3. Transport: gRPC/HTTP OTLP # brooker (קפקא/פולסר) עם מפתחות אידמפוטנטיות.
4. מעבדים: נורמליזציה, העשרה (GEO/terant/channel), מסנני PII, דגימה דקה.
5. מאוורר: ב-TSDB (מטריצות), במחסן העקבות, במערכת הרישומים, באגם/DWH, בכוננות/כללים.
6. צרכנים: לוחות מחוונים, התראות SLO (קצב צריבה), חקירות, דף מצב, שחרור שערים אוטומטיים.
5) שיעורי QOS וזרימה
Class A (זמן אמת, P1): SLI/SLO, סינתטיקה, ספקי מפתחות (PSP/KYC). משלוח SLA: <5-10C, MA 99. 9%.
מחלקה B (חדרי ניתוח): שבילים/יומנים עבור RCA, SLA: <1-2 דקות.
מחלקה C (אנליטית): אגרגטים וחבורות באגם/DWH, SLA: שעה/יום.
ניתוב כיתה עדיפויות, בקשות שונות, תורים/נושאים אישיים.
6) דגימה, צבירה, שימור
מטריצות: הידרדרות של סדרות היסטוריות (1 = 10 = 10 מטר), אגרגטים אחוריים, מופת.
שבילים: דגימה מבוססת זנב (העלאה של נתח לחריגות, שגיאות PSP, p99 - ”התפרצויות”).
יומנים: רמת פרופיל, דחיסה, דחיית רעש (בריאות, DEBUG במבצע - אסור).
שימור: ”חם” (7-14 ימים פירוט), ”קר” (יחידות/ארכיון). מדיניות לכל מחלקה נתונים ועלות.
7) פרטיות וציות
היגיינת PII: מיסוך/אסימון של מזהים; איסור על מסמכי CCM/כרטיס אסימונים בטלמטריה.
גיאו-לוקליזציה: אחסון על ידי תחום שיפוט; ייצוא - רק באמצעות זרם עבודה מאושר (הצפנה, TTL, ביקורת חשבונות).
בקרת גישה: RBAC/ABAC לחנויות טלמטריה, SOD להעלאה.
8) אמינות זרימה
אידמפוטנטיות: מפתחות אירוע, dedup במעבדים.
תרגיל אחורי: מגבלות הזרקה לדייר/שירות; טיפת מדיניות לשדות עומס בעדיפות נמוכה.
ההילוכים החוזרים - חנות בברוקר 72 h לעיבוד חוזר.
אות מתה: שגיאות ניתוב (סכימה, גודל, הפרת PII) כדי לאבטח DLQ עם התראות.
Vsioning: ”זרימה כפולה” בעת שינוי מעגלים (v1 + v2) ונדידת צרכנים.
9) דייר רב ־ דייר ובידוד
תגי דייר _ id/brang/region בכל אירוע; מכסות שוליות ותקציבים.
בידוד זרמי A/B על ידי סופרמרקטים; Showback/chargback על הזרקה ואחסון.
מיסוך/צבירה לגבול הדייר במהלך ייצוא.
10) ספריית זרם (שדות לדוגמה)
מזהה: טלמטריה. תשלומים. חישוב הצלחה. קצב. &fospos
כיתה: A (זמן אמת)
”חותמת זמן, דייר, אזור, אזור, psp, bank_bin_group, success_rate, חלון”
מקור: Otel Collector + PSP-router metrics
צרכנים: התראות SLO, לוח מחוונים Exec, עמוד מצב
שימור: חם במשך 30 יום, צבירה במשך 12 חודשים
בעלים: תשלומים SRE, dpo-בעלים (פרטיות)
זרימה SLO: השהייה <10 C p95, הפסד <0. 1 %/יום
11) אינטגרציה עם התראה ומשחררת
התראות SLO על ידי צריבה-קצב (חלון מהיר/איטי) עבור הפקדות/תעריפים.
שערים משוחררים: ניתוח כנרית SLI; עצירה אוטומטית בזמן ההשפלה.
עמוד מצב: עדכון הזנה מכרטיס תקרית + SLI.
12) קבוצה של לוחות מחוונים
OPEC: Uptime, BURN-rate-rate, הצלחה באישורים/RPS (על ידי GEO/PSP), מצב הספק, טלמטריה $/RPS.
SRE/Platform: RED/USY by Service, lag cows, outlier exchange, eBPF profiles.
תשלומים/סיכון: המרת בנק/PSP, ירידה רכה/קשה, KYC SLA, אותות צ 'רג' בק מוקדמים.
עלות-obs: נפח הזרקה על ידי מקור, תוויות עליונות של קרדינליות, עלות על ידי זרם.
13) מימון תצפיתי (FinOps)
עלות KPI: $/GB בליעה, $/trace, $/SLI-dashboard; דיווח על מדדים ותוויות ”כבדים”.
אופטימיזציות: צבירה והידרדרות, דגימה דינמית, ניקוי יומני פטפוט, שיעור אחסון בעל חשיבות.
פוליטיקאים: מכסות לקרדינליות גבוהה, מגבלות על תדירות הנושא, סקירת מזימות פעם ברבע.
14) תהליכים ותפקידים
Data/Observability בעלים (תשלומים, משחקים, Core API, Infra).
שינוי בקרה למעגלים: סקירת יחסי ציבור, ספסלי בדיקה, תאימות בצרכנים.
לוח/כאוס-ימים: ניתוקים של ספקים, עומס ברוקר, תרמיל גב/בדיקת אידמפוטנטיות.
לאחר המוות: כולל ניתוח טלמטריה (מספיק אותות, אזעקות שווא, עלות).
15) מימוש מפת דרכים (8-12 שבועות)
נד. 1-2: ביקורת זרם, מפת מקור, מטרות SLO טלמטריה, בחירת תקנים (OTEL, TSDB, שבילים, יומנים).
נד. 3-4: אספני OTEL, זיהוי מתאם יחיד, RED/USE + business SLI עבור הפקדה/הימור, ספריית זרימה v0.
נד. 5-6: דגימה מבוססת זנב, סינתטי GEO, DLQ/idempotency, מסנני פרטיות.
נד. 7-8: FinOps panel (בליעה/שימור), ירידות, מכסות קרדינליות, התראות SLO (צריבה).
נד. 9-10: eBPF/low-level אותות, סטטוס דף הזנה, שחרור-שערים.
נד. 11-12: בדיקות כאוס, אופטימיזציה עלויות, זרימות SLA רשמיות, השקת סקירה רבעונית של מזימות.
16) תבניות חפץ
Telemetry Stream Spec: id, בעלים, תוכנית, שיעור QOS, מקורות, צרכנים, שימור, SLO/התראות, מדיניות פרטיות.
סכימה תבנית יחסי ציבור: שינוי/נדידה, תאימות, בדיקות, תוכנית רולבק.
מדיניות דגימה: כללים להרמת דגימה במקרה של חריגות; תקציבי יעד.
Cost Review Pack: Top Process by $/Value, TTL/Aggregation מציע.
רשימת טלמטריה: רשימת תרשימים/שבילים/רישומים הנדרשים עבור RCA.
17) KPI/KRI של זרמי טלמטריה
משלוח: p95 עיכובים לפי השיעור,% הודעות אבודות/יום.
כיסוי: פרופורציה של נתיבים קריטיים עם איתור> 90%, יחס של SLIs סגור על ידי מדדים.
איכות אות:% מהתקריות נתפסו ב-SLI לפני תלונות, התראות שווא/החמצות.
עלות: $/RPS לטלמטריה, $/עקבות, נתח של ”רעש” בהזרקה.
אמינות: זמן התאוששות לאחר הידרדרות הברוקר, קול חוזר.
18) תרופות אנטי ־ פטריות
מדדי קרדינליות גבוהים (autID, ID) ב-TSDB.
”קופסה שחורה” אחת של יומנים ללא מבנה ותוכניות.
אין DLQ/idempotency * כפילויות והפסדי שיא.
”אינסופי” חזרות ללא FinOps = צמיחת חוק מעריכית.
שבילים ללא הקשר עסקי (PSP/Bank/GEO).
מזימות לא עקביות בין פקודות * צרכנים נשברים.
סך הכל
זרמי טלמטריה (באנגלית: Telemetry streams) הם מערכת מבוקרת ורב שכבתית: תקני OTEL ותוכניות _ הזרקה אמינה עם QOS ו-backpressure. מעגל כזה נותן אותות מוקדמים, RCA מהיר, עלויות צפויות ויציבות של פלטפורמת iGaming במצבי שיא.