موضوعات تله متری
1) هدف و زمینه
جریان های تله متری هجوم مداوم داده های مشاهده شده در مورد عملکرد پلتفرم را فراهم می کنند: چه اتفاقی می افتد، چرا و چقدر هزینه دارد. در iGaming، این کلید تشخیص زودهنگام تخریب سپرده/شرط بندی، دید ارائه دهندگان خارجی (PSP/KYC/استودیوهای بازی) و انطباق SLO/انطباق قابل اثبات است.
2) نقشه منبع تله متری
معیارها (TSDB): قرمز/استفاده، SLI کسب و کار (موفقیت مجوز،٪ از شرط های موفق).
OTel: زنجیره ای از درخواست ها از طریق جلو → API → کارگزاران → پایگاه داده/PSP.
Logs (ساختار یافته): رویدادها، عملیات حسابرسی، خطاها.
رم: TTFB/LCP، خطاهای JS، جغرافیایی/دستگاه.
Synthetics: معاملات محاکمه خارجی (ورود/سپرده/نرخ شن و ماسه) از GEO های مختلف.
تله متری سطح پایین: eBPF/CPU پروفایل/IO/℃، شبکه p95/p99.
وضعیت های خارجی: استخرهای webhooks/PSP/KYC/CDN/WAF.
3) استانداردها و طرح ها
OpenTelemetry به عنوان lingua franca: unification of attribute semantics (سرویس). نام، استقرار محیط زیست، کاربر نهایی. شناسه - ماسک، ردیابی/SpanID، کدهای PSP).
قراردادهای طرح: نسخه، رجیستری طرح برای سیاهههای مربوط/مسیرهای پیاده روی، «شکستن تغییرات» تنها از طریق پرچم دودویی و دوره فضل.
Correlation-ID: تک 'correlation _ id' برای پرداخت/شرط بندی از طریق تمام لایه ها + نمونه در درصد متریک.
4) نوار نقاله تزریق (سطح بالا)
1. تولید کنندگان: SDK/agents/collectors (OTel collector on nodes).
2. بافر لبه: صف های محلی (حافظه/دیسک) با محدودیت.
3. حمل و نقل: gRPC/HTTP OTLP → کارگزار پیام (Kafka/Pulsar) با کلید های idempotency.
4. پردازنده: نرمال سازی، غنی سازی (GEO/مستاجر/کانال)، فیلتر PII، نمونه برداری نازک.
5. Fan-out: در TSDB (معیارها)، در ذخیره سازی ردیابی، در سیستم ورود به سیستم، در دریاچه/DWH، در هشدار/قوانین.
6. مصرف کنندگان: داشبورد، هشدارهای SLO (نرخ سوختن)، تحقیقات، صفحه وضعیت، دروازه های خودکار را آزاد کنید.
5) QoS و کلاس های جریان
کلاس A (زمان واقعی، P1): SLI/SLO، مصنوعی، ارائه دهندگان کلیدی (PSP/KYC). SLA تحویل: <5-10c، ≥99. 9%.
کلاس B (اتاق عمل): مسیرها/سیاهههای مربوط به RCA، SLA: <1-2 دقیقه.
کلاس C (تحلیلی): دانه ها و دسته ها در دریاچه/DWH، SLA: ساعت/روز.
مسیریابی کلاس → اولویت بندی، درخواست های مختلف، صف های فردی/موضوعات.
6) نمونه برداری، جمع آوری، نگهداری
معیارها: پایین آوردن سری های تاریخی (1s → 10s → 1m)، جمع آوری صدک، نمونه ها.
مسیرهای پیاده روی: نمونه برداری مبتنی بر دم (افزایش سهم برای ناهنجاری ها، خطاهای PSP، p99- «انفجار»).
سیاهههای مربوط: سطح مشخصات، فشرده سازی، رد سر و صدا (بهداشت پینگ، DEBUG در فروش - ممنوع).
نگهداری: «گرم» (جزئیات 7-14 روز)، «سرد» (واحد/آرشیو). سیاست ها در هر کلاس داده ها و هزینه.
7) حفظ حریم خصوصی و انطباق
بهداشت PII: ماسک کردن/نشانه گذاری شناسه ها ؛ ممنوعیت اسناد CCM/نشانه های کارت در تله متری.
جغرافیایی: ذخیره سازی توسط صلاحیت ؛ صادرات - فقط از طریق گردش کار تایید شده (رمزگذاری، TTL، حسابرسی).
کنترل دسترسی: RBAC/ABAC به ذخیره سازی تله متری، SoD برای آپلود.
8) قابلیت اطمینان جریان
Idempotence: کلید رویداد، dedup در پردازنده.
فشار پشتی: محدودیت تزریق در هر مستاجر/خدمات ؛ سیاست های قطره برای زمینه های اضافه بار کم اولویت.
تکرار - ذخیره در کارگزار ≥72 h برای پردازش مجدد.
Dead-letter: خطاهای مسیریابی (طرح، اندازه، نقض PII) برای ایمن سازی DLQ با هشدارها.
نسخه بندی: «جریان دوگانه» هنگام تغییر مدارها (v1 + v2) و مهاجرت مصرف کننده.
9) چند مستاجر و انزوا
برچسب ها 'tenant _ id/brand/region' در هر رویداد ؛ سهمیه های حاشیه ای و بودجه.
جداسازی جریان A/B توسط topicals ؛ showback/chargeback در تزریق و ذخیره سازی.
پوشش/تجمع به مرز مستاجر در طول صادرات.
10) دایرکتوری جریان (زمینه های مثال)
شناسه: "تله متری. پرداخت ها موفق باشید. نرخ. و..
کلاس: A (زمان واقعی)
Схема: {برچسب زمانی، مستاجر، منطقه، psp، bank_bin_group، success_rate، پنجره}
منبع: جمع کننده OTel + معیارهای PSP-روتر
مصرف کنندگان: هشدارهای SLO، داشبورد Exec، صفحه وضعیت
نگهداری: گرم برای 30 روز، جمع برای 12 ماه
مالک: پرداخت SRE، dpo-owner (حریم خصوصی)
SLO جریان: تاخیر <10 c p95، از دست دادن <0. 1٪ در روز
11) ادغام با هشدار و انتشار
هشدارهای SLO توسط نرخ سوزاندن (پنجره سریع/آهسته) برای سپرده/نرخ.
دروازه های انتشار: تجزیه و تحلیل قناری SLI ؛ توقف خودکار/چرخش در طول تخریب.
صفحه وضعیت: به روز رسانی خوراک از کارت حادثه + واحد SLI.
12) مجموعه ای از داشبورد های کلیدی
Exec: آپ تایم، نرخ سوختن، موفقیت مجوزها/نرخ ها (توسط GEO/PSP)، وضعیت ارائه دهنده، تله متری $/RPS.
SRE/Platform: RED/USE توسط سرویس، صف تاخیر، تشخیص خروجی، پروفایل eBPF.
پرداخت/ریسک: تبدیل بانک/PSP، کاهش نرم/سخت، KYC SLA، سیگنال های بازپرداخت اولیه.
هزینه ها: حجم تزریق توسط منبع، برچسب های بالا cardinality، هزینه های جریان.
13) مالی قابل مشاهده (FinOps)
هزینه KPI: $/GB مصرف، $/ردیابی، $/SLI-داشبورد ؛ گزارش در مورد معیارهای «سنگین» و برچسب ها.
بهینه سازی: تجمع و downsampling، نمونه برداری پویا، تمیز کردن سیاهههای مربوط chatty، کلاس ذخیره سازی از اهمیت.
سیاستمداران: سهمیه برای کاردینالیتی بالا، محدودیت در فرکانس موضوع، بررسی طرح یک بار در سه ماهه.
14) فرآیندها و نقش ها
صاحبان داده ها/قابلیت مشاهده на домены (پرداخت ها، بازی ها، API هسته، Infra).
تغییر کنترل برای مدارهای: PR-بررسی، نیمکت آزمون، سازگاری در مصرف کنندگان.
Tabletop/Chaos-days: قطع ارتباط ارائه دهندگان، بیش از حد کارگزار، بررسی فشار پشتی/idempotency.
پس از مرگ: شامل تجزیه و تحلیل تله متری (کافی بودن سیگنال ها، آلارم کاذب، هزینه).
15) نقشه راه پیاده سازی (8-12 هفته)
«ند». 1-2: ممیزی جریانهای جاری، نقشه منبع، اهداف SLO تله متری، انتخاب استانداردها (OTel، TSDB، مسیرها، سیاههها).
«ند». 3-4: جمع کننده های OTel، شناسه همبستگی تک، RED/USE اساسی + SLI تجاری برای سپرده/شرط بندی، فهرست جریان v0.
«ند». 5-6: نمونه برداری مبتنی بر دم، GEO synthetics، DLQ/idempotency، فیلترهای حریم خصوصی.
«ند». 7-8: پنل FinOps (مصرف/نگهداری)، downsampling، سهمیه بندی کاردینالیتی، هشدارهای SLO (نرخ سوختن).
«ند». 9-10: eBPF/سیگنال های سطح پایین، خوراک صفحه وضعیت، دروازه های انتشار.
«ند». 11-12: آزمون هرج و مرج، بهینه سازی هزینه، جریان SLA رسمی، راه اندازی بررسی سه ماهه طرح.
16) الگوهای مصنوعی
تله متری جریان مشخصات: شناسه، مالک، طرح، کلاس QoS، منابع، مصرف کنندگان، حفظ، SLO/هشدار، سیاست حفظ حریم خصوصی.
الگو روابط عمومی طرح: تغییر/مهاجرت، سازگاری، تست ها، طرح عقبگرد.
سیاست نمونه برداری: قوانین برای بلند کردن نمونه در صورت ناهنجاری ؛ بودجه های هدف
بسته بررسی هزینه: منابع بالا توسط $/ارزش، TTL/پیشنهادات جمع آوری.
Incident Telemetry Checklist: لیستی از نمودارها/مسیرها/سیاهههای مربوط که باید برای RCA باشد.
17) KPI/KRI جریان تله متری
تحویل: تاخیر p95 توسط کلاس،٪ پیام های از دست رفته/روز.
پوشش: نسبت مسیرهای بحرانی با ردیابی> 90٪، نسبت SLI ها توسط معیارها بسته شده است.
کیفیت سیگنال:٪ از حوادث گرفتار در SLI قبل از شکایت، نادرست/هشدار از دست رفته.
هزینه: $/RPS برای تله متری، $/ردیابی، سهم «سر و صدا» در تزریق.
قابلیت اطمینان: زمان بازیابی پس از تخریب کارگزار، حجم پخش.
18) ضد گلوله
معیارهای کاردینالیتی بالا (UserId, sessionId) در TSDB.
یک «جعبه سیاه» از سیاهههای مربوط بدون ساختار و طرح.
بدون DLQ/idempotency → موارد تکراری و تلفات اوج.
«بی پایان» retentions بدون FinOps → رشد لایحه نمایی.
مسیرهای پیاده روی بدون زمینه کسب و کار (PSP/بانک/GEO) → تشخیص ضعیف.
طرح های متناقض بین دستورات → مصرف کنندگان شکستن.
مجموع
جریان Telemetry یک سیستم کنترل شده و چند لایه است: استانداردهای OTel و طرح ها → تزریق قابل اعتماد با QoS و فشار پشتی → نمونه برداری/جمع آوری و retentions برای هزینه → حفظ حریم خصوصی و جداسازی چند مستاجر → هشدار SLO، داشبورد و دروازه های آزاد. چنین مدار سیگنال های اولیه، RCA سریع، هزینه های قابل پیش بینی و ثبات پلت فرم iGaming را در حالت های اوج می دهد.