Gözegçilik we ýagdaýa gözegçilik
1) Maksatlar we ýörelgeler
Maksat: hakyky wagtda hadysalaryň öňüni almak we SLO-ny bozmazdan we OPEX-i köpeltmezden çalt dikelmek üçin "nämeleriň bolup geçýändigine" we "näme üçin" düşünmek.
Ýörelgeler: SLO-first, "altyn signallar" (latency, traffic, errors, saturation), telemetriýanyň ýeke-täk standarty (OpenTelemetry), iň az ýeterlik jikme-jiklikler, düşündirilebilirlik, cost-aware synlanylyşy.
2) Gözegçilik gatlaklary
1. Metrikler: SLI/SLO, capacity we trendler üçin agregatlar (RED/USE modelleri).
2. Söwdalar: haýyşlaryň, töleg we oýun amallarynyň sebäp-netije zynjyrlary.
3. Loglar/wakalar: operatorlaryň/hyzmatlaryň hereketleriniň jikme-jik mazmuny we barlagy.
4. Sintetika (black-box): API/web ýollarynyň daşarky barlaglary, PSP/KYC hels-pingleri.
5. RUM (hakyky ulanyjy): öň metrikler (TTFB, LCP, JS-ýalňyşlyklar), geo/enjam bölekleri.
6. Pes derejeli telemetriýa: eBPF/CPU/IO/alloc profilleri, toruň persentil gijikdirmeleri.
3) SLI toplumy we "altyn signallar"
Latency: p50/p95/p99 kritiki ýollar boýunça (giriş, goýum, stawka, netije).
Errors: 5xx/timeout/decline paýy (üpjün edijiler/banklar boýunça kadalaşma bilen).
Traffic/Throughput: RPS/TPS, işjeň sessiýalar, wakalar/sek.
Saturation: CPU/RAM/IO ýüklemek, nobatlaryň çuňlugy, pool-usage, replication lag.
Biznes-SLI: penjire üçin üstünlikli goýumlar/% nyrhlar, KYC/PSP konwersiýasynyň gyşarmagy, chargeback paýy.
4) Telemetriýanyň arhitekturasy
Standartlaşdyrylan injest: OpenTelemetry SDK/collector → normalizasiýa, sempling, privacy-süzgüç → ammar (TSDB, tracking, logy).
Baglanyşyk: trace-id/span-id loglarda we metriklerde (exemplars); tölegler/oýun wakalary üçin ýeke-täk correlation-id.
Topologiýa: hyzmat-mapa (service graph), diri SLI bilen garaşly daşarky üpjün edijiler.
Çykdajylary dolandyrmak: retensiýa, agregasiýa derejeleri, dinamiki sempling, "gyzgyn "/" sowuk "saklaýyş synplary.
5) Metrikler: dizaýn we kardinallyk
Düzgünler: bellikleriň az sany, time-series-de high-cardinality (userId, sessionId) gadaganlygy; şeýle jikme-jiklikler - diňe trassalara/loglara.
RED/USE: Requests-Errors-Duration для API; Infrastruktura üçin Utilization-Saturation-Errors.
Exemplars: ýokary percentilleri belli bir trace-mysallar bilen baglanyşdyrmak.
Iş ölçegleri: $/RPS, PSP-iň banklara/GEO-lara öwrülmegi, üpjün edijileriň şowsuzlyga çydamlylygy.
6) Treýsing: çuňluk we sempling
Kontekst: trace-konteksti frontuň içinden atýarys → API → dellallar → workerler → DB/PSP.
Sempling: esasy 1-10%, anomaliýalarda - düzgünler boýunça dinamiki ösüş (tail-based).
Fokus: töleg fokusy (init → auth → capture/settle), oýun amallary (bet → settle), KYC (init → verify).
Düşündirişler: Jogap PSP kody, bank-BIN/issuer-kategoriýa, sebit, töwekgelçilik-skor.
7) Loglar we audit
Gurluşly loglar: JSON, profil boýunça dereje (Prodda INFO, Hata düzetmede DEBUG).
Gizlinlik süzgüçleri: PII-ni gizlemek, loglarda çig KYC resminamalaryny gadagan etmek.
Audit wakalary: kim/näme/nirede/haçan/näme üçin, ID bilet, ýokary töwekgelçilikli amallar üçin pre/post bahalary (bonuslar, çäkler, PSP-marşrutlamak).
Üýtgewsizlik: WORM/immutable, gol, syýasata täzeden seredilýär.
8) Ýagdaýa gözegçilik (saglyk)
Liveness/Readiness/Startup: dogry synaglar (liveness-de daşarky garaşlylygy barlamaň).
Degraded-mode: alertleriň we status sahypasynyň ylalaşylmagy üçin hyzmatyň zaýalanmagynyň aýdyň baýdaklary.
Budget health: burn-rate býudjet ýalňyşlyklary (çalt/haýal penjire), çeşmeler we nobatlar boýunça headroom.
9) Alerting we irki duýduryş
SLO-alertler: ýalňyşlyklaryň býudjeti boýunça (4 sagatlyk we 1 sagatlyk penjireler) "çig" p95 ýerine.
Anomaliýalar: STL/IQR/5xx partlamalary üçin onlaýn detektorlar, belli bir GEO/bankda PSP ygtyýarlyklarynyň peselmegi.
Root-cause hints: Biz alertleri iň soňky neşirler/fiçeflaglar/meýilleşdirilen işler bilen baglanyşdyrýarys.
Runbooks: Her bir alertiň pleýbuk linkleri, grafikleri, "çalt barlaglar" bar.
10) Daşbordlar (kim we näme görýär)
Exec: apteim/SLO, burn-rate, üstünlikli goýumlar/nyrhlar, üpjün edijileriň ýagdaýy, kuwwat çaklamasy we $/RPS.
SRE/platforma: RED/USE services, nobatlar/lag, pool-usage, replication lag, CDN/WAF, eBPF-profiller.
Payments/Risk: PSP/banklar/GEO, soft/hard declines, KYC wagty, chargeback early-signals boýunça ygtyýarnamalaryň üstünlikleri.
Support/CS: hadysalaryň status paneli, SLA jogaplar, SSS makroslary.
11) Gözegçilik çykdajylaryny dolandyrmak (FinOps-Observability)
Gaýtadan işlemek: "çygly" ýollar üçin 7-14 gün, agregatlar has uzyn; saýlama - gyzgyn hyzmatlar.
Sampling/agregasiýa: anomaliýalara görä dinamiki sampling, köne hatarlary downsampling.
Ingest-syýasatlar: sesleri kesmek (saglyk pingleri, artykmaç loglar), ýokary kardinallyk metrikasy üçin kwotalar.
KPI bahasy: $/GB ingest, $/trace, $/SLI dashboard; top-iýýänleriň wagtal-wagtal gykylygy.
12) Gizlinlik we gabat gelmek
PII/Maliýe: telemetriýadaky maglumatlary gizlemek, bellemek, azaltmak.
Geo-lokalizasiýa: ýurisdiksiýa boýunça saklamak we gaýtadan işlemek; log-eksport - diňe şifrlemek we TTL bilen tassyklanan workflow arkaly.
Telemetriýa elýeterliliginiň barlagy: RBAC/ABAC, düşürmek üçin SoD, soraglar žurnaly.
13) Waka-dolandyryş we goýberişler bilen integrasiýa
Status-sahypa: waka-kartoçkadan täzelenmeleriň awtomatiki görnüşi.
Release-gate: SLI boýunça kanar derňewi, burn-rate> bosagada awto-stop çykyşy.
Post-mortem: trassalardan/loglardan wagt, hakyky SLI we bozulan penjireler.
14) Durmuşa geçirmegiň amaly usuly (8-12 hepde)
Ned. 1-2: kritiki ýollaryň we SLI-leriň inventarizasiýasy; yığını saýlamak (OTel, TSDB, logi, trek); endikleriň kartasy.
Ned. 3-4: OTel-i 3-5 esasy hyzmatlara (login/depozit/stawka), esasy RED/USE, trace-kontekstine girizmek.
Ned. 5-6: SLO we burn-rate-alertler; PSP/KYC boýunça sintetika; ilkinji runbooks; Web/mobile RUM.
Ned. 7-8: dinamiki sempling, exemplars, hyzmat-mapa; daşbordlar Exec/SRE/Payments.
Ned. 9-10: eBPF/gyzgyn dar ýerleri profillemek; privacy-süzgüçler; kwotalar/retensiýa.
Ned. 11-12: SLI boýunça goýberilen oýunlar we awto-rollback; status-sahypa bilen integrasiýa; tabletop-maşklar.
15) Artefaktlaryň şablonlary
Hyzmatyň SLO-kartasy: SLI, maksatlar, penjireler, ýalňyşlyklaryň býudjeti, aladalar, eýeler.
Alert Spec: metrika/şert, bosagalar, dedup/sylens, alýanlar, runbook.
Dashboard Spec: diňleýjiler, soraglar, 6-8 widget, maglumat çeşmesi, täzeleniş ýygylygy.
Telemetry Policy: Haýsy meýdanlara rugsat berilýär/gadagan edilýär, retenşn, maskalanma, eksport.
Cost Review Pack: Top-seriýa/log akymlary, sampling/TTL teklibi, garaşylýan tygşytlylyk.
16) KPI gözegçilik funksiýalary
MTTA/MTTR (SLO-alerting girizilenden soň gowulaşmak).
Ulanyjylaryň arz-şikaýatlaryndan öň sintetika/SLI tarapyndan tapylan hadysalaryň% -i.
El bilen gatyşmazdan SLI arkaly girtden geçen neşirleriň paýy.
Diagnostikany saklamak bilen telemetriýa üçin $/RPS azaltmak.
Kritiki ýollary yzarlamak (> 90%).
Korelýasiýa takyklygy "update status faktiki SLI".
17) Antipatternler
"Hemme zady ýazýarys" → bahanyň partlamagy we ses.
SLO/burn-rate → pager-fatigue ýerine "çig" metrikler boýunça alertler.
Metrikleriň ýokary kardinallygy (userId) → TSDB-tupanlar.
Iş konteksti bolmadyk söwda (PSP/bank/GEO) → içerki zat ýok.
Syn edilişiň relizler/hadysalar bilen baglanyşygy ýok → telemetriýa aýratyn ýaşaýar.
Jemi
Synlamak we ýagdaýa gözegçilik etmek gurallaryň toplumy däl-de, dolandyrylýan ulgam: dogry SLI/SLO → standartlaşdyrylan telemetriýa we korrelasiýa → SLO-alerting we runbooks → relizler we status-aragatnaşyk bilen integrasiýa → cost-aware ekspluatasiýa we gizlinlik. Şeýle kontur, traffigiň iň ýokary derejelerinde-de irki signallary, çalt RCA we işiň durnuklylygyny berýär.