نظارت بر زمان واقعی
(بخش: عملیات و مدیریت)
1) چرا نظارت بر زمان واقعی
زمان واقعی «جادوی میلی ثانیه» نیست، بلکه توانایی تشخیص انحرافات و عمل در پنجره های SLO است. برای iGaming/fintech، این بدان معنی است:- قابلیت مشاهده فوری در دسترس بودن و تاخیر (p50/p95/p99) مسیرهای بحرانی ؛
- کنترل یکپارچگی رویداد (وب، پرداخت، RTP/محدودیت)
- امنیت مالی (خروج/هزینه 1K حوادث, پاکسازی/سپردن);
- انطباق (رسید، بهداشت PII).
2) طرح معماری
لایه ها:1. تولید کنندگان: خدمات، SDK ها، گره های لبه، ارائه دهندگان پرداخت/محتوا.
2. ورودی دروازه: «metrics/traces/logs/events» گیرنده با فشار پس زمینه و سهمیه.
3. اتوبوس/جریان: کارگزار با مشارکت (مستاجر/منطقه/مسیر)، حفظ برای پخش مجدد.
4. جریان پردازش: تجمع پنجره (T + 5s/T + 1m)، dedup، نرمال زمان، محاسبه SLI.
5. ذخیره سازی: سری زمانی (RAM)، OLAP (تاریخچه)، گزارش های WORM (ممیزی).
6. تجزیه و تحلیل و هشدار: قوانین SLO، آشکارسازهای آماری، غیر عادی.
7. داشبورد و runes: UI برای اقدامات (pause/re-route/rollback/raise-limit).
شیوه های کلیدی:- قراردادهای داده برای معیارها/رویدادها (طرح ها، نسخه ها، اعتبار سنجی).
- Outbox/CDC برای تضمین انتشار رویدادهای دامنه.
- Idempotency و dedup توسط 'trace _ id/event _ id'.
- همگام سازی ساعت: NTP/PTP، اصلاح انحراف، آبشارهای زمان (رویداد در مقابل زمان پردازش).
3) انواع تله متری و معانی
معیارها (SLI): شمارنده p-percentile/gages/هیستوگرام.
ردیابی: پایان دادن به پایان 'trace _ id/span _ id'، RPC↔sobytiya↔vebkhuki بسته نرم افزاری.
سیاهههای مربوط: ساختار یافته، با 'tenant _ id/region/version'.
رویدادهای کسب و کار: «پرداخت مجاز»، «WebhookDelivered»، «RTPWindowClosed».
رسید: رسید/امضا (برای امور مالی/عملیات بحرانی).
4) زمان و پنجره
انواع زمان: زمان رویداد، زمان مصرف، زمان پردازش.
ویندوز: کشویی (5-30 ثانیه)، تعویض (1-5 دقیقه)، با احتباس آب (علامت آب) برای رویدادهای اواخر.
فشردگی: مجموع در یک جریان (طرح هیستوگرام) → ذخیره تنها سطل صدک لازم است.
5) عادی سازی و کیفیت داده ها
اعتبار سنجی ورودی: زمینه های طرح/محدوده/مورد نیاز ؛ رد - قرنطینه با برچسب دلیل.
تقسیم بندی: توسط '(event_id، تولید کننده، seq) ؛ ذخیره «کش دیده می شود» در حافظه + KV.
تصحیح معیارها: در برابر «double count» و «flatline» (سنسورها ساکت هستند).
نمونه برداری: برای QPS بالا - سازگار، با خطا ؛ SLI بحرانی - پر.
6) SLI/SLO (مرجع)
ستاره شمالی: میزان موفقیت E2E در هدف p95 بر اساس منطقه.
اس ال آی:- در دسترس بودن در هر کانال/منطقه.
- P50/P95/P99 تاخیر در طول مسیرهای کلیدی.
- نرخ خطا/نرخ تلاش مجدد.
- میزان موفقیت تحویل Webhook (٪ تایید شده توسط رسید).
- ثبات قیمت/مالیات («نقل قول = = پرداخت»، ± 1 واحد جزئی).
- هزینه SLI: هزینه 1K حوادث، خروج/ورود در هر واحد.
- دسترسی ≥ 99 95٪ در پنجره 28 روزه.
- p95: نمایشگاه ≤ 120ms، نقل قول/پرداخت ≤ 250ms.
- وب سایت ها ≥ 99 موفق هستند. 5 ٪/5 دقیقه پنجره.
- Δ quote↔checkout = 0 (± 1 واحد جزئی).
- واکنش به P1 ≤ 10 دقیقه، MTTR ≤ 60 دقیقه.
7) هشدار و زنگ (خودکار اقدامات)
سطوح: P1 (شکست SLO/ناامیدی)، P2 (تخریب)، P3 (روند/خطرات).
لغو نویز: dedup توسط 'trace _ id'، همبستگی زنجیره های علی.
- «PriceMismatch» → تازه کردن دایرکتوری, آشتی 'fx _ version/tax _ rule _ version', سیاست جبران خسارت;
- WebhookLag → تنظیم مجدد کارگران، افزایش دسته، اولویت بندی صف ؛
- «رانش RTP →» مکث تبلیغی, بررسی paytable/نسخه, رول پشت مشخصات;
- «خروج از خروش» → فعال فشرده سازی/کش سنجاق/مسیر جایگزین.
- تشدید: ماتریس 24 × 7، چرخش در تماس، کانال (چت/تماس/SMS).
8) داشبورد (ابزارک های عملیاتی)
سلامت پلت فرم: در دسترس بودن، p95/p99، نرخ خطا، کاهش خطا بودجه.
ادغام/webhooks: موفقیت، تاخیر، دو برابر/idempotence، رسید.
پرداخت/قیمت: اختلافات vitrina↔checkout، نسخه های FX/Tax، موارد امتناع.
RTP/محدودیت ها: در مقابل RTP مشاهده شده، تحریک محدودیت ها، قرار گرفتن در معرض.
FinOps: هزینه هر 1k، خروج/ورود، بودجه/کلاه هشدار.
امنیت/انطباق: SoD، JIT، MFA، درخواست PII، امضای کرت. عملیات ها
انتشار/پرچم: وضعیت ویژگی، مناطق قناری، ارتباط با حوادث.
9) چند منطقه و چند مستاجر
تقسیم بر اساس «مستاجر/منطقه».
SLO ها/سهمیه های مستقل بر اساس منطقه ؛ محدودیت های هشدارهای بین منطقه ای (به طوری که یک شکست محلی تمام جهان را «رنگ» نمی کند).
مناطق اطمینان داده: PII/finance - فقط در صورت امکان ؛ در داشبورد عمومی - aggregates/hashes.
10) امنیت، حریم خصوصی، اثبات پذیری
وارد کردن احراز هویت: کلیدها/TLS متقابل، محدودیت نرخ، امضاهای بسته.
به حداقل رساندن PII: نشانه به جای primitives، ماسک/شناسه هش.
رسید: DSSE/امضا برای رویدادهای مالی/بحرانی.
گزارش های WORM: گزارش های غیر قابل تغییر برای ممیزی، برش های Merkle.
کنترل دسترسی: RBAC/ABAC/ReBAC، JIT برای پانل های حساس.
11) غیر عادی و همبستگی
Guardrails: آستانه استاتیک توسط SLI.
آمار: Shewhart/CUSUM/EWMA برای روند.
ML/سیگنال: فصلی/کانال/ASN/ارائه دهندگان ؛ تاثیر انتشار/ficheflags.
همبستگی: حوادث مرتبط با انتشار، تغییرات پیکربندی، افزایش ترافیک، تبلیغات.
12) عملکرد و هزینه
بودجه تله متری: کلاه در هر QPS/حجم ؛ رد معیارهای «chatty».
فشرده سازی/جمع آوری: تاریخچه downsampling (1s → 10s → 1min)، طرح های صدک را ذخیره کنید.
کنترل خروج: حافظه های محلی/مصالح، پیش پردازش لبه.
هشدار هزینه آگاه: یک سیگنال اگر هزینه/1k حوادث و یا خروج فراتر از برنامه می رود.
13) ادغام API و قراردادها
'POST/ingest/metrics' (JSON/OTLP): احراز هویت، سهمیه ها، طرح/نسخه.
'POST/ingest/events' (امضا شده): dedup/TTL/nonce.
'GET/KPIS ؟ filters = region, tenant, route '- aggregates برای رابط کاربری.
'GET/traces/{ trace _ id}' - زنجیر را باز کنید.
Вебхуки: 'IncidentRaised', 'QuotaCapReached', 'PriceMismatch', 'WebhookLag', 'RTPDrift'.
14) کتاب های حادثه (کوتاه)
Dostupnost↓ P1: سوئیچ مسیریابی، فعال کردن قطع کننده مدار، کاهش زمان خروج مشتری، پست وضعیت اضطراری.
P1 Quote≠Checkout: پویایی تبلیغی/قیمت را متوقف کنید، ناتوانی نیروی کش، مقایسه نسخه FX/Tax، جبران خسارت.
P1 WebhookLag: افزایش کارگران/رقابت، اندازه دسته ای، غیر فعال کردن وب سایت های ناچیز.
P2 RTP رانش: مکث جایزه, paytable/تایید نسخه, نظارت بر فرمت پنجره, گزارش.
P2 خروج خروش: فشرده سازی، کش لبه، در حال حرکت بخشی از ترافیک، سهمیه موقت.
15) معیارهای کیفیت نظارت بر خود
در دسترس بودن UI/API ≥ 99. 9%.
تازگی: ورود به روز رسانی ≤ 30 ثانیه برای پانل های عملیاتی.
کیفیت: ≥ 99 5٪ از منابع داده ها را به پنجره ارسال می کنند.
صحت: اختلاف با استاندارد مرجع ≤ 0. 1%.
خط لوله هشدار MTTA/MTTR: P1 ≤ 1/10 دقیقه.
16) چک لیست پیاده سازی
- تعریف ستاره شمالی و SLI/SLO تنظیم شده توسط منطقه/کانال.
- قراردادهای داده ها و طرح ها را برای همه جریان های تله متری وارد کنید.
- پیکربندی مصرف با سهمیه، فشار پشتی، و deduplication.
- اتوبوس/جریان و تجمع پنجره را با علامت های سفید مستقر کنید.
- ساخت سری زمانی/OLAP/WORM و بسته نرم افزاری.
- شروع هشدار + خودکار runes، ماتریس تشدید 24 × 7.
- داشبورد را با نقش ایجاد کنید: SRE/Product/FinOps/Compliance/Partners.
- شامل PII به حداقل رساندن، امضا، و RBAC/ABAC/ReBAC.
- معیارهای FinOps (هزینه/1k، خروج، ذخیره سازی) و محافظ های دهان را وارد کنید.
- برگزاری GameDay: تاخیر webhook، قیمت از همگام سازی، retray پشت سر هم، شکست منطقه.
17) لینک به iGaming/fintech
RTP & Limits: کنترل RTP مشاهده شده و محدودیت در دقیقه/ساعت، هشدار در مورد «بیش از/تحت پرداخت».
پرداخت/پرداخت: ردیابی پایان دادن به پایان مجوز، پاکسازی و دریافت ؛ SLA PSP.
شرکت های وابسته: حمل و نقل تبدیل (webhooks) و اختلافات → سپردن/آشتی.
Promo: ترافیک → حفاظت از صف و قیمت خروج ؛ گاردریل در بودجه.
18) سوالات متداول
آیا زمان واقعی در همه جا اجباری است ؟
نه، اينطور نيست خطوط «داغ» - ثانیه/دقیقه (حوادث، پرداخت ها، وب سایت ها). اقتصاد/تجزیه و تحلیل - دقیقه/ساعت.
چگونه با هشدارهای کاذب مقابله کنیم ؟
شرایط SLO گرا، تجمع و dedup توسط 'trace _ id'، همبستگی با انتشار، هیسترزیس آستانه.
آیا لازم است تمام لاگ ها را برای همیشه نگه دارم ؟
نه، اينطور نيست WORM - فقط برای موضوعات حسابرسی/بحرانی ؛ بقیه کاهش می یابد/TTL.
چرا «quote≠checkout» پیدا شد ؟
نسخه FX/مالیات، ناتوانی حافظه پنهان، گرد کردن. با نسخه ها، استراتژی SWR و تست های سازگاری درمان می شود.
نظارت بر زمان واقعی یک رشته است: قراردادهای دقیق داده ها، محاسبات پنجره، زمان نرمال، یک بسته نرم افزاری با رسید و هشدار SLO، به علاوه یک دکمه عمل در هر ویجت. با انجام این کار درست، شما MTTR را کاهش می دهید، بودجه را تحت کنترل نگه می دارید و با اطمینان اکوسیستم را با منطقه و مستاجر مقایسه می کنید.