Kuzatish va holatini nazorat qilish
1) Maqsad va prinsiplar
Maqsad: real vaqtda «nima bo’layotganini» va «nima uchun» tushunish, hodisalarning oldini olish va SLOni buzmasdan va OPEXni oshirmasdan tezda tiklanish.
Tamoyillar: SLO-first, «oltin signallar» (latency, traffic, errors, saturation), telemetriyaning yagona standarti (OpenTelemetry), minimal yetarli tafsilotlar, tushuntirish qobiliyati, cost-aware kuzatilishi.
2) Kuzatish qatlamlari
1. Metriklar: SLI/SLO, capacity va trendlar uchun agregatlar (RED/USE-modellar).
2. Treyslar: so’rovlar, to’lov va o’yin tranzaksiyalarining sababiy-oqibatli zanjirlari.
3. Logi/iventlar: operator/servislar harakatlarining batafsil konteksti va auditi.
4. Sintetika (black-box): API/veb-yo’llarni tashqi tekshirish, PSP/KYC xels-pinglar.
5. RUM (haqiqiy foydalanuvchi): frontal metriklar (TTFB, LCP, JS xatolari), geo/devays kesmalari.
6. Past darajadagi telemetriya: eBPF/profiling CPU/IO/alloc, tarmoqdagi pertsentil kechikishlar.
3) SLI to’plami va «oltin signallar»
Latency: p50/p95/p99 tanqidiy yo’llar bo’yicha (login, depozit, stavka, chiqarib tashlash).
Errors: 5xx/timeout/decline ulushi (provayderlar/banklar bo’yicha normallashtirish bilan).
Traffic/Throughput: RPS/TPS, aktiv sessiyalar, hodisalar/sek.
Saturation: CPU/RAM/IO yuklash, navbatlar chuqurligi, pool-usage, replication lag.
Biznes-SLI: oyna uchun muvaffaqiyatli depozitlar/foiz stavkalari, KYC/PSP konversiyasining rad etilishi, chargeback ulushi.
4) Telemetriya arxitekturasi
Standartlashtirilgan injest: OpenTelemetry SDK/collector → normallashtirish, sempling, privacy-filtrlar → omborlar (TSDB, trassirovkalar, loglar).
Korrelyatsiya: trace-id/span-id log va metriklarda (exemplars); to’lovlar/o’yin tadbirlari uchun yagona correlation-id.
Topologiya: servis-mapa (service graph), tirik SLI bilan bog’liq tashqi provayderlar.
Qiymatni boshqarish: retensiya, agregatsiya darajalari, dinamik sempling, «issiq «/» sovuq »saqlash klasslari.
5) Metrika: dizayn va kardinallik
Qoidalar: yorliqlarning kichik soni, time-series-da high-cardinality (userId, sessionId) ni taqiqlash; bunday tafsilotlar - faqat trassalarga/loglarga.
RED/USE: Requests-Errors-Duration для API; Utilization-Saturation-Errors infratuzilma uchun.
Exemplars: yuqori parsentillarni aniq trace-misollarga bogʻlash.
Biznes-metrika: $/RPS, PSPning banklar/GEO bo’yicha konvertatsiyasi, provayderlarning muvaffaqiyatsizlikka chidamliligi.
6) Treysing: chuqurlik va sampling
Kontekst: trace kontekstini frontga tashlaymiz → API → brokerlar → vorkerlar → DB/PSP.
Sempling: bazaviy 1-10%, anomaliyalarda - qoidalar bo’yicha dinamik o’sish (tail-based).
Fokus: toʻlov flolari (init → auth → capture/settle), oʻyin tranzaksiyalari (bet → settle), KYC (init → verify).
Izohlar: javobning PSP kodi, bank-BIN/issuer-toifasi, mintaqa, tavakkal-tezkor.
7) Logi va audit
Tuzilgan loglar: JSON, profil darajasi (prodda INFO, sozlashda DEBUG).
Maxfiylik filtrlari: PII kamuflyaj qilish, loglarda KYC xom hujjatlarini taqiqlash.
Audit voqealari: kim/nima/qaerda/qachon/nima uchun, ID bileta, pre/post yuqori tavakkalchilik operatsiyalari uchun qiymatlar (bonuslar, limitlar, PSP-routing).
O’zgarmas: WORM/immutable, imzo, siyosat bo’yicha retenshn.
8) Holatni nazorat qilish (health)
Liveness/Readiness/Startup: to’g’ri sinovlar (liveness-da tashqi qaramlikni tekshirmaslik).
Degraded-mode: Alertlar va maqom sahifasi kelishib olinishi uchun xizmat tanazzulining aniq bayroqlari.
Budget health: burn-rate budjeti xatolari (tez/sekin oyna), resurslar va navbatlar bo’yicha headroom.
9) Alerting va erta ogohlantirish
SLO-alertlar: xatolar budjeti bo’yicha (4 soatlik va 1 soatlik derazalar) «xom» p95 o’rniga.
Anomaliyalar: 5xx portlashlari uchun STL/IQR/onlayn detektorlar, muayyan GEO/bankda PSP avtorizatsiyalarining pasayishi.
Root-cause hints: Biz alertlarni oxirgi relizlar/ficheflaglar/rejalashtirilgan ishlar bilan bog’laymiz.
Runbooks: har bir alertda pleybuk linklari, grafiklar, «tezkor tekshiruvlar» mavjud.
10) Dashbordlar (kim va nimani ko’radi)
Exec: aptaym/SLO, burn-rate, muvaffaqiyatli depozitlar/stavkalar, provayderlar maqomi, sig’imi prognozi va $/RPS.
SRE/platforma: RED/USE services, navbatlar/lag, pool-usage, replication lag, CDN/WAF, eBPF-profillar.
Payments/Risk: PSP/banklar/GEO, soft/hard declines, KYC vaqti, chargeback early-signals.
Support/CS: hodisa paneli, SLA javoblar, SSS makroslari.
11) Kuzatuv qiymatini boshqarish (FinOps-Observability)
Retenshn: «xom» trassalar uchun 7-14 kun, agregatlar uzoqroq; tanlab - issiq xizmatlar.
Sampling/agregatsiya: anomaliyalar boʻyicha dinamik sampling, eski qatorlarni downsampling.
Ingest-siyosatchilar: shovqinni (health-pinglar, ortiqcha loglar), high-cardinality metrikasiga kvotalarni kesib tashlash.
KPI qiymati: $/GB ingest, $/trace, $/SLI dashbord; top-ovqatlantiruvchilarni davriy yig’ish.
12) Maxfiylik va komplayens
PII/moliya: kamuflyaj, tokenizatsiya, telemetriyadagi ma’lumotlarni minimallashtirish.
Geo-mahalliylashtirish: yurisdiksiya bo’yicha saqlash va qayta ishlash; log-eksport - faqat tasdiqlangan shifrlangan workflow va TTL orqali.
Telemetriyadan foydalanish auditi: tushirish uchun RBAC/ABAC, SoD, so’rovlar jurnali.
13) Hodisa-menejment va relizlar bilan integratsiya qilish
Status-sahifa: hodisa-kartochkadan avtomatik yangilanishlar
Reliz-geyt: SLI bo’yicha kanareya tahlili, burn-rate> ostonasida avto-stop relizi.
Post-mortem: trassalardan taymline, haqiqiy SLI va buzilishlar oynalari.
14) Amaliyotga joriy etish metodikasi (8-12 hafta)
Ned. 1-2: kritik yo’llar va SLIni inventarizatsiya qilish; stekni tanlash (OTel, TSDB, logi, trasa); qaramliklar xaritasi.
Ned. 3-4: OTelni 3-5 ta asosiy servislarda (login/depozit/stavka), bazaviy RED/USE, loglarda trace-kontekstda joriy etish.
Ned. 5-6: SLO va burn-rate-alertlar; PSP/KYC bo’yicha sintetika; birinchi runbooks; Veb/mobailga RUM.
Ned. 7-8: dinamik sempling, exemplars, servis-mapa; Exec/SRE/Payments dashbordlari.
Ned. 9-10: eBPF/profiling issiq tor joylar; privacy-filtrlar; kvotalar/retensiya.
Ned. 11-12: SLI bo’yicha reliz-geytlar va avto-rollback; maqom-sahifa bilan integratsiya qilish; tabletop-mashqlar.
15) Artefaktlar shablonlari
Servisning SLO-karta: SLI, maqsadlar, derazalar, xato byudjeti, alertlar, egalari.
Alert Spec: metrika/shart, chegaralar, dedup/saylens, qabul qiluvchilar, runbook.
Dashboard Spec: auditoriya, savollar, 6-8 vidjet, ma’lumotlar manbai, yangilanish tezligi.
Telemetry Policy: qaysi sohalarga ruxsat berilmagan/taqiqlangan, retenshn, niqoblash, eksport.
Cost Review Pack: top-seriyalar/log-oqimlar, sempling/TTL bo’yicha taklif, kutilayotgan tejash.
16) kuzatish funksiyasi KPI
MTTA/MTTR (SLO-alerting joriy etilgandan keyin yaxshilash).
Foydalanuvchilarning shikoyatlariga qadar sintetik/SLI aniqlangan hodisalar%.
Qo’lda aralashuvsiz SLI bo’yicha geytdan o’tgan relizlar ulushi
Diagnostikani saqlab qolgan holda telemetriya uchun $/RPS pasayishi.
Kritik yo’llarni trassing bilan qoplash (> 90%).
«Haqiqiy SLI» maqomi yangilanishining aniqligi.
17) Antipatternlar
«Hamma narsa» → qiymat portlashi va shovqin.
SLO/burn-rate → pager-fatigue o’rniga «xom» metriklar bo’yicha alertlar.
Metriklarning yuqori kardinalligi (userId) → TSDB-bo’ronlar.
Biznes kontekstisiz treyslar (PSP/bank/GEO) → insayt yo’q.
Reliz/hodisalar bilan hech qanday aloqa yo’q → telemetriya alohida yashaydi.
Jami
Kuzatish va holatni nazorat qilish - bu asboblar to’plami emas, balki boshqariladigan tizim: to’g’ri SLI/SLO → standartlashtirilgan telemetriya va korrelatsiya → SLO-alerting va runbooks → relizlar va status-kommunikatsiya bilan integratsiya → cost-aware ekspluatatsiya va maxfiylik. Bunday kontur erta signallarni, tezkor RCA va hatto trafikning ekstremal cho’qqilarida ham biznesning barqarorligini beradi.