الرصد وقطع الأشجار
1) لماذا يهم في iGaming
المال في الوقت الفعلي: قبول الودائع، والمدفوعات الفورية، وحساب الرهانات والمكاسب، والبطولات - كل شيء حساس للتأخير والفشل.
التنظيم ومراجعة الحسابات: يلزم التتبع الكامل للإجراءات (KYC/AML، المدفوعات، حدود اللعب المسؤول).
الهندسة المعمارية الموزعة المعقدة: بوابات واجهة برمجة التطبيقات، تنسيق الدفع، EDA/Kafka، خدمات المزودين، العملاء المتنقلين، الجبهات، حافلة BI.
الهدف: تقليل MTTD/MTTR، والحفاظ على SLO على إشارات الذهب وتوفير معدل الحوادث.
2) المفاهيم الأساسية لإمكانية الملاحظة
السجلات: أحداث مفصلة (نظام JSON منظم) مناسبة للتحقيقات ومراجعة الحسابات.
المقاييس: مجاميع في الوقت المناسب (TSDB)، تناسب SLO/التنبيهات.
الآثار: سلاسل الطلبات المتعلقة بالسبب والنتيجة (تعقب/امتداد) من خلال الخدمات/السماسرة/قواعد البيانات.
الأحداث: أحداث المجال (BetPlaced، DepositAdministed) - جسر بين مقاييس الأعمال والتكنولوجيا.
3) «الإشارات الذهبية» و SLI/SLO للألعاب
الكمون: P95/P99 على التدفقات الحرجة (الإذن، الإيداع، السعر، بدء الجلسة، الدوران).
حركة المرور: RPS بواسطة API، TPS بالدفع، EPS حسب الحدث.
الأخطاء: حصة 5xx/4xx، معدل الانخفاض، الفشل في الداخل، أخطاء المزود.
التشبع: وحدة المعالجة المركزية، الذاكرة، IO، Kafka lag، اتصالات DB، برك الخيوط.
- SLI: '1 - (failed_payments/ total_payments)'
- SLO: 99. 7٪ من تصاريح البطاقات الناجحة في 30 يومًا (ميزانية الخطأ 0. 3%).
4) بنية الجمع والتجهيز
1. الحقن: عوامل (OTEL Collector/Fluent Bit)، SDK في التطبيق، RUM/synthetics.
2. التوجيه: السمسرة/حافلة القياس عن بعد (OTLP/HTTP/GRPC)، المرشحات وإخفاء PII.
- المقاييس: TSDB (التجميع، التخفيض).
- جذوع الأشجار: ساخنة (مفهرسة )/دافئة (أقل فهرسة )/باردة (تخزين الأجسام، وورم).
- المسارات: تخزين مفهرس بالوقت مع الاحتفاظ به وأخذ عينات من الذيل.
- 4. التحليلات/التنبيهات: القواعد (PromQL/LogQL/SQL)، الارتباط بالمسارات والإطلاقات.
- 5. لوحات القيادة: أنواع تقنية + أعمال (المدفوعات، RNG/مزودي، محرك البطولة).
5) معيار السجل (JSON) وتصنيف الأحداث
يوصى بتسجيل JSON الصارم والمفاتيح والمستويات المفردة.
Уровни: 'DEBUG <معلومات <إشعار <تحذير <خطأ Таксономия: «auth».، «الدفع».، «طريقة اللعب».، «مخاطر».، «psp».، «kyc».، «rg». (ألعاب مسؤولة)، «عمليات». 6) الارتباط: trace_id، correlation_id، idempotency_key يضاف «التتبع _ id» (من OTel)، و «span _ id»، و «الارتباط _ id» (من البداية إلى النهاية لعملية العمل)، و «الخصوصية _ المفتاح» (لطلبات الدفع) إلى كل سجل ومقياس. 7) المقاييس: التقنية والتجارية التقنية: RPS، زمن الانتظار p95، معدل الخطأ، التشبع، GC، استخدام البلياردو، تأخر المستهلك في كافكا. 8) التعقب والقياس عن بعد المفتوح نحن نقوم بتجهيز البوابة، ومنسق الدفع، ونواة اللعبة، والإشعارات، و KYC/AML، والتكامل مع مقدمي الخدمة. 9) التنبيه بدون ضوضاء عتبات متعددة المراحل (تحذير/حرجة)، قمع الخفقان، التفريغ، فترات زمنية. 10) بحث سجل (مثال LogQL) الهدف هو التخلص من الضوضاء بسرعة وتسليط الضوء على الإخفاقات «باهظة الثمن» في المنطقة المستهدفة. 11) لوحات القيادة: ما هو إلزامي صحة المدفوعات: نجاح/فشل من قبل PSP، زمن الوصول بالطريقة، خريطة المناطق، موفري SLA. 12) التخزين والاحتفاظ والتكلفة (FinOps) Cardinality under control: develope metrics with high changel labels (user_id). 13) السلامة والامتثال PII/PCI: الترميز، التجزئة، القناع ؛ التقليل من البيانات. الأسرار والمفاتيح: لا تسجل وثائق التفويض/الرموز ؛ كاشفات سرية على المخابرات المركزية مسار مراجعة الحسابات: القيودات إلى فريق الإدارة، والتغييرات في الحدود/المدفوعات، والتسويات اليدوية للرصيد - فقط في مؤشر مراجعة الحسابات، بشكل ثابت. 14) جودة بيانات القياس عن بعد سجل مخططات السجلات/الأحداث (النسخ، التوافق). 15) عمليات SRE والمكالمات عبر الإنترنت وكتب التشغيل مصفوفة Oncall والتصعيد ؛ ساعات الهدوء والدوران. 16) RUM والمواد التركيبية RUM: WebVitals (LCP، CLS، INP)، الأخطاء الأمامية، بصمات الأجهزة، المناطق/المزودين. 17) ممارسات الإطلاقات والتجارب والفيشفلاج نربط المسارات بإصدارات الإصدار (الالتزام/القطع الأثرية). 18) الكشف عن الشذوذ وإشارات مكافحة الاحتيال المحفزات الإحصائية (مدركة للموسمية) بشأن انخفاض معدل/تحميل المخاطر/زيادة البطاقات الجديدة. 19) خارطة طريق التنفيذ (حسب المرحلة) المرحلة 0 - الأساس: سجلات JSON، مجالات الارتباط الموحدة، مقاييس الخدمة الأساسية، لوحات القيادة المشتركة، التنبيهات الأولى. 20) مراجعة القائمة المرجعية التذييل ألف: سمات القياس عن بعد المفتوحة (توصية) خدمة. اسم '،' خدمة. ، 'نشر. البيئة " سحابة. المنطقة '،' k8s. جراب. الاسم '،' k8s. حاوية. الاسم " "المستأجر"، "العلامة التجارية"، "السوق"، "ab _ test'،" المستخدم _ segment " الدفع. طريقة «،» psp «،» لعبة. المزود '،' لعبة. id' التذييل باء: أمثلة على مقاييس للمكتب الإقليمي لأمريكا اللاتينية ومنطقة البحر الكاريبي «الدفع _ النجاح _ النسبة»، «السحب _ ttw _ p95» (الوقت إلى المحفظة)، «psp _ latency _ p99» «game _ spin _ latency _ p95», «provider _ error _ rate», «kafka _ consumer _ lag» 'auth _ success _ returo', 'kyc _ step _ dropout',' cache _ hit _ rate ' التذييل جيم: وصفات استقصائية سريعة "زيادة" الدفع _ الخطأ _ السعر "→ قارن بواسطة PSP/المنطقة/الطريقة، تحقق من مسارات الذيل، انظر إصدار المحول.
قواعد الأمن PII/PCI:
json
{
"ts": "2025-11-04T19:45:31. 842Z",
"lvl": "AUDIT",
"event_type": "payment. deposit_approved",
"correlation_id": "c-7d2c1f0b",
"trace_id": "2d6a9c0e4c0b1f72",
"span_id": "9f3a81d2a1c3b764",
"request_id": "r-8f12de9e",
"tenant": "brand_eu",
"psp": "acq_xyz",
"user_id_hash": "u:sha256:1e63…",
"device_id": "d-3c8f…",
"ip_trunc": "203. 0. 113. 0/24",
"amount_minor": 5000,
"currency": "EUR",
"result": "approved",
"latency_ms": 312,
"tags": ["pci_safe", "kyc_passed", "low_risk"],
"extra": {
"bin": "411111",
"method": "card",
"region": "EU",
"ab_test": "checkout_v2"
}
}
نقل الأمتعة (المستأجر/العلامة التجارية، السوق، خيار A/B) لبناء شرائح.
الأعمال: CR registratsii→depozit، الأذونات الناجحة، إلغاء المدفوعات، NGR/GGR، ARPPU، شذوذ RTP، التسليم في خطوة KYC، حصة من الحدود المسؤولة.promql sum(rate(http_requests_total{status=~"5.."}[5m]))
/
sum(rate(http_requests_total[5m]))
أخذ عينات الرأس للتدفق الكلي + أخذ عينات الذيل (مرتفعة) للأخطاء/الفترات الكامنة والمدفوعات.
انتشار السياق: 'traceparent '/' tracestate'، و Kafka headers، و gRPC metadata.
يمتد التعليق مع أحداث المجال: "BetPlaced" و "InsideRequest'.
الارتباط: نربط «نمو 5xx» + «Kafka lag» + «p95 latency PSP» → حادثة واحدة.
التنبيهات القائمة على SLO: ميزانية خطأ الإنفاق - تصعيد.
التنبيهات كرمز (GitOps)، مراجعة واختبارات القواعد.yaml groups:
- name: payments rules:
- alert: PaymentErrorSpike expr: (sum(rate(payment_errors_total[5m])) / sum(rate(payment_attempts_total[5m]))) > 0. 02 for: 10m labels: { severity: "critical", team: "payments" }
annotations:
summary: "Payment errors> 2% per 10m"
runbook: "runbooks/payments/error-spike. md"logql
{app="psp-orchestrator", level=~"ERROR FATAL"}
= "decline"
json amount_minor > 10000 region="EU"
لعبة Core: RPS بواسطة مقدمي الخدمة، p95 spin، نسبة الخطأ SDK، شذوذ RTP حسب الفتحات.
رحلة اللاعب: registratsiya→KUS→depozit→igra→vyvod.
Infra: Kafka lag، اتصالات DB، نسبة إصابة المخبأ، مجموعة Kubernetes (شبكة القرون/العقد).
الاحتفاظ: مقاييس ساخنة من 30 إلى 90 يوماً، تصل إلى 13 شهراً ؛ سجلات ساخنة من 7 إلى 14 يومًا، دافئة من 30 إلى 90 يومًا، باردة من 1 إلى 3 سنوات (مع مراعاة اللائحة).
WORM/ثبات سجلات التدقيق، Object Lock.
سياسات الضغط/التقسيم وسياسات الإدارة المتكاملة للآفات ؛ فهارس منفصلة لمراجعة الحسابات/الأرقام القياسية لتكنولوجيا المعلومات والاتصالات.
مسجلات أخذ العينات على INFO/DEBUG ؛ خطأ/مراجعة الحسابات - كامل.
RBAC/ABAC: الوصول إلى السجلات/المسارات - حسب الدور، فصل المظلات.
الحجز القانوني: آلية لتجميد عمليات الاحتجاز في التحقيقات.
التسميات الوحيدة للحقول (snake_case، وحدات القياس).
التحقق من الصحة عند الحقن (إسقاط الأحداث القذرة، مقاييس الزواج).
الضغط الخلفي والحماية من «عواصف جذوع الأشجار».
الدفاتر مرتبطة بالتنبيهات (خطوات التشخيص، وصفات SQL/LogQL، phicheflags للتحلل).
تشريح الجثة بدون عقوبات وبنود العمل مع المالكين والمواعيد النهائية.
مؤشرات الفريق: MTTD/MTTR، النسبة المئوية للتنبيهات الصاخبة، تغطية Runbuk.
المواد التركيبية: سيناريوهات «registratsiya→depozit→spin→vyvod» من مناطق مختلفة ؛ المواقع الخاصة للمسارات الداخلية (الإدارة/المكتب الخلفي).
علامات A/B في الأمتعة → لوحة القيادة «تأثير التجربة على SLI».
كناري/أزرق أخضر: ألواح منفصلة لجزر الكناري، معدل حرق ميزانية الخطأ.
الارتباطات: «نمو الودائع غير الناجحة + الإصدار الجديد من محول PSP».
قواعد البث (كافكا → فلينك) لردود الفعل في الوقت الفعلي تقريبًا.
المرحلة 1 - التعقب: أجهزة OTEL، وأخذ عينات الرأس + الذيل، والربط بالسجلات.
المرحلة 2 - الأرقام القياسية للأعمال/الأرقام القياسية للأعمال: المدفوعات/المخرجات/مقاييس اللعبة، تنبيهات SLO، عمليات ميزانية الخطأ.
المرحلة 3 - النضج: التنبيهات كرمز، ILM، الاحتفظات المنفصلة، الكشف عن الشذوذ، runbuki لكل خدمة، ممارسات SRE في CI/CD.
"p99 spins' ↑ → النزرة، front→geytvey→provayder مزود/قنوات التحقق، حدود تجمع الخيوط، إعادة تشغيل الشبكة.
«Kafka lag» ↑ → المستهلكين الصحيين والمنتجين الرجعيين والضغط الخلفي والأحواض البطيئة/DB.