قابلیت مشاهده مدارها و مجامع
1) شیء وظیفه و مشاهده
دید مدارها و گره ها توانایی یک اکوسیستم برای دیدن، اندازه گیری و توضیح رفتار جریان های بین مدار (ترافیک/رویدادها/پرداخت/CCM/محتوا) و گره ها (اپراتورها، استودیوها/RGS، PSP/APM، ارائه دهندگان KYC/AML، وابستگان، جمع کننده ها، گره های جریان) است. اهداف:- پایان به پایان علیت (کلیک کنید به فاکتور) ؛
- SLO های قابل پیش بینی و ریسک مدیریت شده
- RCA سریع و MTTR کم ؛
- قابلیت اثبات (خلاصه های امضا شده، ممیزی WORM) با حداقل هزینه تله متری.
2) هستی شناسی قابل مشاهده
سازمان ها:- 'chainId', 'nodeId', 'role' (اپراتور/استودیو/psp/kyc/affiliate/stream), 'صلاحیت', 'env' (prod/stage/sbx), 'traceId', 'spanId', 'routeId', 'campaignId', 'tableId', 'apmRouteId'.
- 'click', 'session _ start', 'registration', 'kyc _ status', 'deposit/withdrawal', 'ftd', 'bet/spin', 'reward _ granted', 'postback _ sent/received', 'jackpot _ contribution/trigger', 'stream _ sli', 'rg _ guardrail _ hit'.
- معیارها (RED/USE/سیگنال های طلایی)، ردیابی (W3C traceparent)، سیاهههای مربوط (ساختاری)، رویدادها (کسب و کار)، RUM/مصنوعی (مشتری/کانال)، حسابرسی/WORM (غیر قابل تغییر).
تمام طرح ها در Schema Registry نسخه می شوند ؛ زمان UTC/ISO-8601 است.
3) حمل و نقل و همبستگی
OpenTelemetry: یک فرمت واحد برای متریک/سیاهههای مربوط/دهانه ؛ صادر کنندگان به TSDB/handlers.
زمینه ردیابی W3C: 'traceparent '/' tracestate' از طریق تغییر مسیرها، API ها، وب سایت ها، اتوبوس پرتاب می شود.
Idempotency: «Idempotency-Key» در مسیرهای بحرانی (پرداخت/پس زمینه).
دقیقا یک بار در معنی: تاریخچه هش پدربزرگ/مکان نما، ثبت نام پخش webhook.
نمونهها: هیستوگرامهای تأخیر مرتبط با «traceId» خاص برای RCA های سریع.
4) مدل SLI/SLO و بودجه خطا
سیگنال های طلایی: تاخیر، ترافیک، خطاها، اشباع.
قرمز: نرخ، خطا، مدت زمان.
استفاده (زیرساخت): استفاده، اشباع، خطاها.
- وب سایت ها: تحویل ≥ 99. 9٪، p95 ≤ 1-2 ثانیه.
- API شریک: p95 ≤ 150-300 ms، میزان خطا ≤ 0. 3–0. 5%.
- اتوبوس رویداد: تاخیر p95 ≤ 200-500 ms ؛ تحویل ≥ 99 9%.
- پرداخت/AWS: CR در راهرو مشخصات ؛ مجوز E2E ≤ X بازدید کنندگان.
- KYC: نرخ عبور و مراحل SLA توسط مشخصات قضایی.
- زنده/SFU/CDN: e2e 2-3 s، از دست دادن بسته ≤ 1٪، آپ تایم ≥ 99. 9%.
- داشبورد: طراوت ≤ 1-5 ثانیه ؛ P95 رندر ≤ 1. 5–2. 0 ثانیه
بودجه خطا: دوره های ثابت (به عنوان مثال، 30 روز)، انواع خطا (5xx، timeouts، نقض SLO)، قوانین خودکار پاداش/malus و دکمه های توقف.
5) داشبورد: لایه ها و مصنوعات
1. Service Graph (tsepi↔uzly): توپولوژی, rps/eps, p95/p99, خطا در نرخ, اشباع, جریان نقشه حرارتی توسط صلاحیت.
2. جریان کسب و کار: klik → registratsiya → KYC → deposit → FTD → stavka/raund → vyplata; قیف های تبدیل و پنجره های انتساب.
3. پرداخت/KYC: CR × دستگاه × جغرافیایی، کدهای خرابی، مراحل تأخیر، برش خودکار با حاشیه نویسی.
4. محتوا/RGS/زنده: دور سفر، نرخ خطا، SFU/CDN SLI، مدیران و jackpots.
5. Postbacks/Attribution: به موقع بودن، جنجال، dedup، مکان نما عقب می افتد.
6. اعتماد و ریسک: کارت امتیازی گره (SLO/ATTR/RG/SEC)، «زمان در هر بسته ردیابی»، پیش بینی ردیف.
هر پانل شامل نسخه های فرمول و پیوندهایی به یک changelog است.
6) هشدار و تشدید
هشدار SLO چند سطحی: هشدار (سوختگی نرخ 2 ×)، انتقاد (سوختگی نرخ 10 ×)، اقدامات بعدی (مسیرهای خنک کننده/محدودیت).
عوامل ترکیبی: «latency↑ + CR↓ + postback lag↑» → سوء ظن تخریب PSP.
کانال های نقش: SRE/پرداخت/KYC/RGS/بازاریابی/امور مالی/حقوقی/RG ؛ context بلافاصله دکمه «traceId »/« runbook »/stop را فعال می کند.
سیاست های Snooze/Muting برای معیارهای پر سر و صدا، اما بدون P1 jamming.
7) RCA и اتاق جنگ
SLA در هر بسته ردیابی: 60-90 ثانیه (P1/P2).
الگوی RCA «بدون سرزنش»: واقعیت → فرضیه → آزمایش → قرار دادن پیگیری → به عمل.
تفاوت انتشار (§ 2 رویدادها): بررسی خودکار برخورد/فرمول/پیکربندی در پنجره حادثه.
SLO پس از مرگ: زمان تشخیص، مکث، عقب نشینی، تثبیت، انتشار یادداشت ها.
8) کیفیت داده ها و اصل و نسب
SLI کیفیت داده: کامل بودن، طراوت، منحصر به فرد بودن («eventId»)، سازگاری ارزها/مناطق.
Lineage: از فروشگاه/پانل به منابع (طرح/نسخه/صاحبان).
اوراکل: aggregates امضا شده (GGR/NetRev/SLO/RG)، «فرمول نسخه»، «هش (ورودی)»، «بچه»، دوره.
حسابرسی WORM: فرمول غیر قابل تغییر/کلید/استثنا/صورتحساب صورتحساب.
9) حریم خصوصی، حوزه های قضایی و امنیت
اعتماد صفر: mTLS، نشانه های کوتاه مدت، لیست خروج مجاز، چرخش کلید/JWKS.
حداقل PII: نشانه گذاری 'playerId'، detokenization تنها در مناطق امن ؛ ممنوعیت PD در سیاههها/معیارها.
ABAC/ReBAC/SoD: دسترسی «دیدن آنها و موافقت» ؛ «اندازه گیری ≠ نفوذ ≠ تغییر».
محلی سازی داده ها و DPIA/DPA برای بازارها ؛ سیاستهای پاکسازی و TTL
10) هزینه تله متری و مدیریت کاردینالیتی
بودجه کاردینالیتی: محدودیت های برچسب (userId/URL/UA - ممنوع است ؛ routeId/campaignId - مجاز است).
هیستوگرام به جای درصد در پرواز ؛ نمونه هایی برای جزئیات انتخابی.
نمونه برداری تطبیقی از آثار: درصد پایه + اولویت برای خطاها/مسیرهای آهسته/نسخه های جدید.
Downsampling/roll-ups توسط سن (1s → 1m → 5m) ؛ ذخیره سازی مسیرهای RAW کوتاه است، aggregates طولانی تر است.
SLO-first: فقط آنچه را که از راه حل ها پشتیبانی می کند (SLO/finance/compliance) جمع آوری کنید.
11) ادغام با مدیریت (SRE ↔ کسب و کار)
انتشار Guardrails و کمپین ها به بودجه SLO/اشکال گره خورده است.
مسیرهای APM/KYC برش خودکار هنگامی که معیارها فراتر از راهروها می روند.
RevShare/Limits: ضریب کیفیت «Q» (از SLO/ATTR/RG/SEC) بر نرخ ها و سهمیه ها تأثیر می گذارد.
کارت امتیازی گره ها → اولویت بندی ترافیک و دسترسی به خلبانان.
12) ضد الگوهای
«بسیاری از حقایق» توسط معیارهای فرمول و پنجره های مختلف.
صفحه بندی افست تاریخ تحت بار (استفاده از نشانگر).
PII در سیاهههای مربوط/پانل ؛ PD صادرات به BI.
باغ وحش Postback و webhooks بدون امضا → طول می کشد/سوراخ/اختلافات.
نمودار بدون 'traceId': پانل زیبا است، هیچ علیت وجود دارد.
طوفان هشدار بدون مسیرهای سوختگی و نقش بازی کردن.
SPOF تجمع تله متری بدون N + 1/DR.
استثنائات بدون TTL/audit بسیار مهم هستند.
13) چک لیست
طراحی سایت
- هستیشناسی سیگنالها و مدارها ؛ نسخه ها و صاحبان
- ردیابی W3C در همه جا ؛ Idempotency-کلید در مسیرهای بحرانی.
- SLI/SLO و بودجه خطا ؛ دکمه های توقف ؛ گاردریل ها
- کاردینالیتی، نمونه برداری، سیاست حفظ/رول یو پی اس.
- حریم خصوصی/PII: نشانه گذاری، DPA/DPIA، محلی سازی.
- هشدار مبتنی بر نقش و runbooks.
شروع به کار
- انطباق برای آثار/معیارها/سیاهههای مربوط ؛ مصنوعی اجرا می شود.
- تله متری قناری برای انتشار ؛ پانل های مقایسه قبل/بعد.
- کتاب های اتاق جنگ ؛ SLA در هر بسته ردیابی.
عملیات اجرایی
- کارت امتیازی هفتگی ؛ گزارش های سوختگی
- تغییرات فرمول ماهانه و تجدید نظر SLO/محدود.
- تمرینات DR/xaoc از aggregators/لاستیک/storefronts.
14) نقشه راه بلوغ
v1 (بنیاد): معیارهای اساسی + سیاهههای مربوط، traceId تک، RCA های دستی، SLO های اولیه.
v2 (ادغام): OpenTelemetry در همه جا، نمودار خدمات، guardrails، خط لوله اوراکل، هشدار نقش بازی.
v3 (اتوماسیون): تخریب پیش بینی، خودکار برش APM/KYC/RGS، آشتی هوشمند، محدود کردن پویایی توسط 'Q'.
v4 (حاکمیت شبکه): تبادل سیگنال بین زنجیره ای و اوراکل، قوانین فرمول/SLO DAO، خزانه های شفاف.
15) معیارهای موفقیت
کیفیت/خطر: MTTR↓، MTTD↓، disputability <X٪، خودکار مکث/بازگشت سهم، پوشش مسیر ≥ 95٪.
کسب و کار: بالا بردن قابل پیش بینی CR/FTD/ARPU/LTV، دقت و بهنگام بودن postbacks، NetRev ثبات.
تکنیک: p95 API/webhooks/لاستیک/ویترین در راهروها ؛ گره آپ تایم/CDN/SFU ≥ 99. 9%.
اقتصاد: هزینه به رعایت (CTO) در هر RPS/رویداد,% مصالح با نمونه, ذخیره سازی RAW در محدودیت.
انطباق: 0 نشت PD، ممیزی DPIA/DPA موفق، 100٪ در دسترس بودن گزارش های WORM.
خلاصه ای کوتاه
دید یک حلقه اعتماد تولید است: یک هستی شناسی، ردیابی پایان به پایان، کانون معیارها و رویدادها، gardrails SLO و اوراکل داده ها، حریم خصوصی پیش فرض و نظم هزینه تله متری. چنین چارچوبی باعث می شود زنجیره ها و گره ها شفاف، قابل پیش بینی و قابل اثبات باشند و اکوسیستم پاسخگو و مقاوم در برابر ریسک باشد.