قابلیت مشاهده و کنترل شرایط
1) اهداف و اصول
هدف: درک اینکه «چه اتفاقی می افتد» و «چرا» در زمان واقعی برای جلوگیری از حوادث و بهبود سریع بدون نقض SLO یا افزایش OPEX.
اصول: SLO اول، «سیگنال های طلایی» (تاخیر، ترافیک، خطاها، اشباع)، یک استاندارد تله متری (OpenTelemetry)، حداقل جزئیات کافی، توضیح پذیری، مشاهده پذیری هزینه آگاه است.
2) لایه های قابل مشاهده
1. معیارها: مجموعه ای برای SLI/SLO، ظرفیت و روند (مدل RED/USE).
2. ردپاها: زنجیرههای علّی درخواستها، پرداختها و تراکنشهای بازی.
3. سیاههها/رویدادها: زمینه دقیق و حسابرسی اقدامات اپراتور/خدمات.
4. Synthetics (جعبه سیاه): API خارجی/چک مسیر وب، PSP/KYC سلامت پینگ.
5. RUM (کاربر واقعی): معیارهای خط مقدم (خطاهای TTFB، LCP، JS)، برش های جغرافیایی/دستگاه.
6. تله متری سطح پایین: eBPF/CPU پروفایل/IO/℃، تاخیر صدک شبکه.
3) مجموعه SLI و سیگنال های طلایی
تاخیر: p50/p95/p99 توسط مسیرهای بحرانی (ورود، واریز، نرخ، برداشت).
خطاها: سهم 5xx/timeout/decline (نرمال شده توسط ارائه دهندگان/بانک ها).
ترافیک/توان: RPS/TPS، جلسات فعال، رویدادها/ثانیه
اشباع: بار CPU/RAM/IO، عمق صف، استفاده از استخر، تاخیر تکرار.
SLI کسب و کار: سپرده های موفق/نرخ٪ در هر پنجره، انحراف تبدیل KYC/PSP، سهم بازپرداخت.
4) معماری تله متری
تزریق استاندارد: OpenTelemetry SDK/collector → عادی سازی، نمونه برداری، فیلترهای حریم خصوصی → ذخیره سازی (TSDB، آثار، سیاهههای مربوط).
همبستگی: trace-id/span-id در سیاههها و معیارها (نمونه ها) ؛ تنها همبستگی ID برای پرداخت/رویدادهای بازی.
توپولوژی: نمودار خدمات، ارائه دهندگان خارجی وابسته با SLI های زنده.
مدیریت هزینه: سطوح نگهداری، تجمع، نمونه برداری پویا، کلاس های ذخیره سازی «گرم «/» سرد «.
5) معیارها: طراحی و کاردینالیتی
قوانین: تعداد کمی از برچسب ها، ممنوعیت کاردینالیتی بالا (userId، sessionId) در سری زمانی ؛ چنین جزئیاتی - فقط در مسیرها/سیاهههای مربوط.
قرمز/استفاده: درخواست-خطا-مدت زمان для API; استفاده-اشباع-خطاها برای زیرساخت.
نمونه: اتصال صدک بالا به نمونه ردیابی خاص.
معیارهای کسب و کار: $/RPS، تبدیل PSP بانک/GEO، انعطاف پذیری ارائه دهنده.
6) ردیابی: عمق و نمونه برداری
زمینه: ما زمینه ردیابی را از طریق جلو → API → کارگزاران → پردازنده ها → پایگاه داده ها/PSP پرتاب می کنیم.
نمونه برداری: پایه 1-10٪، با ناهنجاری ها - افزایش پویا با توجه به قوانین (مبتنی بر دم).
تمرکز: جریان پرداخت (init → auth → capture/settle)، معاملات بازی (bet → settle)، KYC (init → verify).
حاشیه نویسی: PSP-کد پاسخ، بانک-BIN/صادر کننده-رده، منطقه، نرخ خطر.
7) گزارش ها و ممیزی ها
سیاهههای مربوط به ساختار: JSON، سطح توسط مشخصات (INFO در تولید، DEBUG در اشکال زدایی).
فیلترهای حریم خصوصی: PII masking، ممنوعیت اسناد خام KYC در سیاهههای مربوط.
رویدادهای حسابرسی: چه کسی/چه چیزی/کجا/چه زمانی/چرا، شناسه بلیط، مقادیر قبل/پست برای معاملات با ریسک بالا (پاداش، محدودیت، مسیریابی PSP).
عدم صلاحیت: WORM/غیر قابل تغییر، امضا، حفظ سیاست.
8) کنترل وضعیت (سلامت)
زنده بودن/آمادگی/راه اندازی: نمونه های صحیح (وابستگی های خارجی را در زنده بودن بررسی نکنید).
حالت تخریب شده: پرچم های تخریب سرویس صریح به طوری که هشدارها و صفحه وضعیت سازگار هستند.
سلامت بودجه: نرخ سوزاندن بودجه خطا (سریع/پنجره آهسته)، headroom توسط منابع و صف.
9) هشدار و هشدار زودهنگام
هشدارهای SLO: با توجه به بودجه خطا (پنجره های 4 ساعته و 1 ساعته) به جای p95 خام.
ناهنجاری ها: آشکارسازهای STL/IQR/آنلاین برای انفجار 5xx، مجوز PSP در یک GEO/bank خاص کاهش می یابد.
نکات ریشه علت: ما هشدار با آخرین نسخه مرتبط/phicheflags/کار برنامه ریزی شده.
Runbooks: هر هشدار دارای پیوندهایی به یک playbook، نمودارها، «بررسی سریع» است.
10) داشبورد (چه کسی چه چیزی را می بیند)
Exec: uptime/SLO، burn-rate، سپرده ها/نرخ های موفق، وضعیت ارائه دهنده، پیش بینی ظرفیت و $/RPS.
SRE/پلت فرم: RED/USE توسط سرویس، صف/تاخیر، استفاده از استخر، تاخیر تکرار، CDN/WAF، پروفایل eBPF.
پرداخت/ریسک: موفقیت مجوز PSP/بانک/GEO، کاهش نرم/سخت، زمان KYC، سیگنال های اولیه بازپرداخت.
پشتیبانی/CS: پانل وضعیت حادثه، SLA های پاسخ، ماکرو سوالات متداول.
11) قابلیت مشاهده FinOps
نگهداری: 7-14 روز برای آهنگ های «خام»، واحد طولانی تر ؛ انتخابی - خدمات داغ.
نمونه برداری/تجمع: نمونه برداری پویا توسط ناهنجاری، downsampling از سری های قدیمی.
سیاست های مصرف: قطع سر و صدا (پینگ های بهداشتی، سیاهههای مربوط به کارهای اضافی)، سهمیه بندی برای معیارهای کاردینالیتی بالا.
هزینه KPI: $/GB مصرف، $/ردیابی، داشبورد $/SLI ؛ بررسی های دوره ای از خورندگان برتر.
12) حفظ حریم خصوصی و انطباق
PII/امور مالی: ماسک کردن، نشانه گذاری، به حداقل رساندن داده ها در تله متری.
جغرافیایی: ذخیره سازی و پردازش توسط صلاحیت ؛ صادرات ورود - فقط از طریق گردش کار تایید شده با رمزگذاری و TTL.
دسترسی حسابرسی به تله متری: RBAC/ABAC، SoD برای آپلود، ورود به سیستم درخواست.
13) ادغام با مدیریت حوادث و انتشار
صفحه وضعیت: خوراک به روز رسانی خودکار از کارت حادثه.
دروازه انتشار: تجزیه و تحلیل قناری SLI، انتشار خودکار توقف در سوزاندن نرخ> آستانه.
پس از مرگ: جدول زمانی از مسیرها/سیاهههای مربوط، SLI های واقعی و پنجره های نقض.
14) تمرین پیاده سازی (8-12 هفته)
«ند». 1-2: موجودی مسیرهای بحرانی و SLI ؛ انتخاب پشته (OTel، TSDB، سیاهههای مربوط، آثار) ؛ وابستگی نقشه.
«ند». 3-4: پیاده سازی OTel در 3-5 سرویس کلیدی (login/deposit/rate), basic RED/USE, trace context in logs.
«ند». 5-6: هشدارهای SLO و نرخ سوختگی ؛ synthetics با توجه به PSP/KYC ؛ اولین کتابهای اجرا ؛ رم به وب/تلفن همراه.
«ند». 7-8: نمونه برداری پویا، نمونه، نقشه خدمات ؛ داشبورد های Exec/SRE/Payments
«ند». 9-10: eBPF/پروفایل تنگنا داغ ؛ فیلترهای حریم خصوصی ؛ سهمیه/retentions.
«ند». 11-12: دروازه های آزاد و بازگشت خودکار توسط SLI ؛ ادغام با آموزش جدول صفحه وضعیت.
15) الگوهای مصنوعی
SLO-کارت خدمات: SLI، اهداف، پنجره ها، بودجه خطا، هشدارها، صاحبان.
مشخصات هشدار: متریک/شرایط، آستانه، deadup/سکوت، دریافت کنندگان، runbook.
مشخصات داشبورد: مخاطبان، سوالات، 6-8 ویدجت، منبع داده، نرخ تجدید.
سیاست تله متری: چه زمینه هایی مجاز/ممنوع است، نگهداری، ماسک زدن، صادرات.
بسته بررسی هزینه: سری بالا/جریان ورود، پیشنهاد نمونه برداری/TTL، پس انداز مورد انتظار.
16) عملکرد قابل مشاهده KPI
MTTA/MTTR (بهبود پس از اجرای هشدار SLO).
درصد حوادث شناسایی شده توسط synthetics/SLI قبل از شکایت کاربر.
نسبت انتشار که دروازه از طریق SLI بدون مداخله دستی گذشت.
کاهش در $/RPS در هر تله متری در حالی که حفظ تشخیص.
پوشش ردیابی مسیرهای بحرانی (> 90٪).
دقت همبستگی «به روز رسانی وضعیت ↔ SLI های واقعی».
17) ضد گلوله
«ورود همه چیز» → انفجار هزینه و سر و صدا.
هشدارها در مورد معیارهای «خام» به جای SLO/burn-rate → خستگی پیجر.
کاردینالیتی بالای معیارها (userId) → طوفانهای TSDB.
مسیرهای پیاده روی بدون زمینه کسب و کار (PSP/بانک/GEO) → بدون بینش.
هیچ ارتباطی از مشاهده با انتشار/حوادث → تله متری به طور جداگانه زندگی می کند.
مجموع
قابلیت مشاهده و کنترل شرایط مجموعه ای از ابزارها نیست، بلکه یک سیستم مدیریت شده است: SLI/SLO صحیح → تله متری استاندارد و همبستگی → هشدار SLO و کتابهای اجرا → ادغام با نسخه های منتشر شده و ارتباطات وضعیت → عملیات هزینه آگاه و حریم خصوصی. چنین حلقه ای سیگنال های اولیه، RCA سریع و انعطاف پذیری کسب و کار را حتی در اوج ترافیک شدید می دهد.