מעקב וכריתת עצים
1) מדוע זה משנה ב ־ iGaming
כסף בזמן אמת: קבלת הפקדות, תשלומים מיידיים, חישוב הימורים וזכיות, טורנירים - הכל רגיש לעיכובים וכישלונות.
רגולציה וביקורת: נדרשת איתור מלא של פעולות (KYC/AML, תשלומים, מגבלות של משחק אחראי).
ארכיטקטורה מבוזרת מורכבת: שערי API, תזמורת תשלומים, EDA/קפקא, שירותי ספקים, לקוחות ניידים, חזיתות, אוטובוס BI.
המטרה: להפחית את MTTD/MTTR, לשמור SLO על אותות זהב ולספק קצב אירוע.
2) מושגים בסיסיים של יכולת תצפית
יומנים: אירועים מפורטים (JSON מובנה) המתאימים לחקירות וביקורת.
מטריצות: אגרגטים בזמן (TSDB), המתאימים להתראות SLO/.
עקבות: שרשראות סיבה ותוצאה של בקשות (trace/span) באמצעות שירותים/ברוקרים/מסדי נתונים.
אירועים: אירועי דומיין (BetPosed, Depositished) - גשר בין מדדים עסקיים לטכנולוגיה.
3) ”אותות זהב” ו ־ SLI/SLO עבור iGaming
Latency: P95/P99 בזרימות קריטיות (אישור, הפקדה, קצב, הפעלה, ספין).
תנועה: RPS על ידי API, TPS על ידי תשלום, EPS על ידי אירוע.
שגיאות: שיתוף 5xx/4xx, ירידה בקצב, כשל בתוך, שגיאות ספק.
רוויה: מעבד, זיכרון, IO, קפקא לג, חיבורי DB, חוטים-בריכות.
- SLI: ”1 - (failed_payments/ total_payments)”
- SLO: 99. 7% של אישור כרטיס מוצלח ב 30 ימים (תקצוב שגיאה 0. 3%).
4) ארכיטקטורת אוסף ועיבוד
1. הזרקה: סוכנים (Otel Collector/Floent Bit), SDK ביישום, RUM/סינתטי.
2. ניתוב: broker/telemetry bus (OTLP/HTTP/GRPC), מסננים ומיסוך PII.
- Metrics: TSDB (צבירה, ירידה חדה).
- יומנים: חם (indexed )/חם (פחות indexed )/קר (אחסון אובייקטים, תולעת).
- שבילים: אחסון בזמן עם חזרות ודגימת זנב.
- 4. אנליטיקה/התראות: כללים (PromQL/LogQL/SQL), מתאם עם רצועות ושחרורים.
- 5. לוחות מחוונים: סוגים טכניים + עסקיים (תשלומים, RNG/ספקים, מנוע טורניר).
5) תקן יומן (JSON) וטקסונומיה של אירועים
רישום JSON קפדני, מפתחות בודדים ורמות מומלצות.
'DEBUG "auth", "תשלום", "משחק", "סיכון", "psp", "kyc", "rg", "ops'. 6) קורלציה: trace_id, correlation_id, idempotency_key הוסף ”trace _ id” (מ-Otel), ”span _ id',” correlation _ id' (מקצה אל קצה עבור התהליך העסקי), ”idempotency _ key” (עבור בקשות תשלום) לכל רישום ומטרי. 7) Metrics: Technical and Business טכני: RPS, p95 latency, שיעור שגיאה, רוויה, GC, שימוש בבריכה, קפקא פיגור צרכני. 8) איתור ו ־ OpenTelemetry אנחנו מכשירים את השער, תזמורת תשלומים, ליבת משחק, הודעות, KYC/AML, אינטגרציה עם ספקים. 9) התראה ללא רעש סף רב-שלבי (אזהרה/קריטית), דיכוי מתנפנף, שכפול, חריצי זמן. 10) חיפוש יומן (דוגמה ל ־ LogQL) המטרה היא לחסל במהירות את הרעש ולהבליט כשלים ”יקרים” באזור המטרה. 11) לוחות מחוונים: מה חובה בריאות תשלומים: הצלחה/כשלים על ידי PSP, איחור בשיטה, מפת אזורים, ספקי SLA. 12) אחסון, שימור ועלות (FinOps) קרדינליות תחת שליטה: הימנע ממדדים בעלי תוויות ניתנות לשינוי (user_id). 13) בטיחות וציות PII/PCI: אסימון, חשיש, מיסוך; מזעור נתונים. 14) איכות נתוני טלמטריה סכימה רישום ליומנים/אירועים (versioning, תאימות). 15) תהליכי SRE, שיחות מקוונות וספרי הפעלה מטריצת אונקול והסלמה; שעות שקטות וסיבובים. 16) רום וסינתטיים רום: סימני רשת (LCP, CLS, INP), שגיאות חזיתיות, טביעות אצבעות התקנים, אזורים/ספקים. 17) פרקטיקות של שחרור, ניסויים ופישפלאגים אנחנו מקשרים רצועות עם גרסאות שחרור (מחייב/פריט). 18) גילוי אנומליה ואותות נגד הונאה טריגרים סטטיסטיים (seasonality-award) על ירידה-קצב/chargback-סיכון/נחשול של כרטיסים חדשים. 19) מימוש מפת דרכים (לפי שלב) שלב 0 - בסיס: יומני JSON, שדות מתאם מאוחדים, מדדי שירות בסיסיים, לוחות מחוונים נפוצים, התראות ראשונות. 20) בדיקת רשימה תוספתן A: תכונות OpenTelemetry (המלצה) 'service. שם, 'שירות. גרסה ”, פריסה”. איכות הסביבה &ft 'Cloud. אזור ', K8. תרמיל. שם, 'K8. מיכל. שם &fost ”דייר”, ”מותג”, ”שוק”, ”ab _ test',” user _ segment&fs "פאיימנט. שיטה ”, psp”, ”משחק”. ספק ”, משחק”. &fost תוספתן B: דוגמאות של מטריצות עבור SLO "payment _ pacurity _ ratio", "tw _ p95" (זמן לארנק), "psp _ latency _ p99 &pospos 'game _ spame _ spin _ latency _ p95', 'descrime _ rate _ rate', 'kafka _ consyer _ lagposs 'auth _ possion _ ratio', 'kic _ step _ dropout', 'cache _ hit _ ratio &fospos נספח ג: מתכונים חקירתיים מהירים ”הגדלת 'תשלום _ שגיאה _ קצב'” = השוואה על ידי PSP/אזור/שיטה, בדיקת זנב-שבילים, ראה שחרור מתאם.
PII/PCI כללי אבטחה:
json
{
"ts": "2025-11-04T19:45:31. 842Z",
"lvl": "AUDIT",
"event_type": "payment. deposit_approved",
"correlation_id": "c-7d2c1f0b",
"trace_id": "2d6a9c0e4c0b1f72",
"span_id": "9f3a81d2a1c3b764",
"request_id": "r-8f12de9e",
"tenant": "brand_eu",
"psp": "acq_xyz",
"user_id_hash": "u:sha256:1e63…",
"device_id": "d-3c8f…",
"ip_trunc": "203. 0. 113. 0/24",
"amount_minor": 5000,
"currency": "EUR",
"result": "approved",
"latency_ms": 312,
"tags": ["pci_safe", "kyc_passed", "low_risk"],
"extra": {
"bin": "411111",
"method": "card",
"region": "EU",
"ab_test": "checkout_v2"
}
}
מטען העברה (דייר/מותג, שוק, אפשרות A/B) לבניית פרוסות.
Business: CR Restoratsii # dpozit, אישור מוצלח, ביטול תשלומים, NGR/GGR, ARPU, אנומליות RTP, ירידה ב-KYC step, שיתוף מגבלות אחראיות.promql sum(rate(http_requests_total{status=~"5.."}[5m]))
/
sum(rate(http_requests_total[5m]))
דגימת ראש עבור זרימה כוללת + דגימת זנב (מוגבהת) עבור שגיאות/מוטות סמויות ותשלומים.
הפצת הקשר: tracepart'/' tracestate ', כותרות קפקא, metadata gRPC.
מבטא תוחלת עם אירועי תחום: ”BettPosed”, ”בקשה”.
קורלציה: אנו מקשרים בין ”5xx growth” + ”Kafka lag” + ”p95 latency PSP” = תקרית אחת.
התראות מבוססות SLO: להוציא שגיאות תקציב - להסלים.
התראות כקוד (GitOps), בדיקות סקירה וחוקים.yaml groups:
- name: payments rules:
- alert: PaymentErrorSpike expr: (sum(rate(payment_errors_total[5m])) / sum(rate(payment_attempts_total[5m]))) > 0. 02 for: 10m labels: { severity: "critical", team: "payments" }
annotations:
summary: "Payment errors> 2% per 10m"
runbook: "runbooks/payments/error-spike. md"logql
{app="psp-orchestrator", level=~"ERROR FATAL"}
= "decline"
json amount_minor > 10000 region="EU"
ליבת משחק: RPS על ידי ספקים, ספין p95, יחס שגיאות SDK, חריגות RTP על ידי חריצים.
Gayer Journey: Regomatsiya # KUS # dpozit # igra # vyvod.
אינפרה: Kafka lag, חיבורי DB, יחס להיט מטמון, אשכול קוברנטס (רשת של תרמילים/צמתים).
חזרות: מדדים חמים 30-90 ימים, ירידה עד 13 חודשים; יומנים חם 7-14 ימים, חם 30-90 ימים, קר 1-3 שנים (לוקח בחשבון את הרגולציה).
תולעת/אי-מידתיות ליומני ביקורת, נעילת אובייקט.
דחיסה/מחיצה ומדיניות ILM; אינדקסים נפרדים לביקורת ביקורת/PII-בטוח.
דגימת יומנים על מידע/DEBUG; שגיאה/ביקורת - הושלמה.
RBAC/ABAC: גישה לרישומים/רצועות - על ידי תפקיד, הפרדת סוכות.
סודות ומפתחות: אל תרשום אישורים/אסימונים; גלאים סודיים במודיע.
שובל ביקורת: כניסות ללוח המנהלים, שינויים במגבלות/תשלומים, התאמות שיווי משקל ידניות - רק לאינדקס AUDIT, תמיד.
מנגנון להקפאת החקירות.
נומנקלטורה יחידה של שדות (snake_case, יחידות מידה).
אימות בהזרקה (טיפת אירועים מלוכלכים, מדדי נישואין).
תרמיל גב והגנה מפני ”סופות רישום”.
ספרי ריצה קשורים להתראות (מדרגות אבחון, מתכוני SQL/LogQL, פישפלאגים להשפלה).
לאחר המוות ללא עונשים, פריטי פעולה עם בעלים ומועדים.
אינדיקטורים קבוצתיים: MTTD/MTTR, אחוז התראות רועשות, כיסוי ראנבוק.
סינתטיים: תרחישים ”regomatsiya # dpozit # spin _ vyvod” מאזורים שונים; מקומות פרטיים לנתיבים פנימיים (מנהל/משרד אחורי).
תגיות A/B בלוח מחוונים ack ”אפקט של ניסוי ב ־ SLI”.
קנרית/כחול-ירוק: לוחות נפרדים לקנריות, קצב שריפה בתקציב שגיאה.
קורלציות: ”גידול של מרבצים לא מוצלחים + שחרור חדש של מתאם PSP”.
כללי הזרמה (Kafka = Flink) לתגובות כמעט בזמן אמת.
שלב 1 - איתור: מכשירי OTEL, דגימת ראש + זנב, המקשרים ליומנים.
שלב 2 - SLI/SLO עסקי: תשלומים/יציאות/מדדי משחק, התראות SLO, תהליכי תקצוב-שגיאה.
שלב 3 - בגרות: Alerts-as-Code, ILM, חזרה נפרדת, גילוי אנומליה, ראנבוקי לכל שירות, אימון SRE ב CI/CD.[ ] יומני JSON בלבד, מפתחות בודדים, מסווה PII.[ ] בכל אירוע: ”trace _ id',” span _ id', ”correlation _ id',” derant'.[ ] מטרס מכסה אותות זהב ועסקים זורמים.[ שמתוארים ]-SLOS, יש תקצוב-שגיאות והתראות על שיעור צריבה.[ ] דגימת זנב מתאפשרת עבור שגיאות תשלום ואיחורים גבוהים.[ ] ILM ותולעת מוגדרות ליומני ביקורת.[ ] RBAC לטלמטריה, ביקורת גישה.[ ] לוחות מחוונים עבור תשלומים/ליבת משחק/מסע שחקן/אינפרה.[ ] ריצות קשורות לכל התראה קריטית.[ ] פוסטמורטים ופריטי פעולה בצבר עם הבעלים.
”p99 ספינים” trace = =, geytvey front # geytvey = ספק/ערוצים, גבולות בריכת חוטים, מגשי רשת.
”קפקא לג” = צרכני בריאות, יצרני רטרו, תרמיל גב, כיורים איטיים/DB.