Müşahidə və vəziyyətə nəzarət
1) Məqsədlər və prinsiplər
Məqsəd: hadisələri xəbərdar etmək və SLO-nu pozmadan və OPEX-i şişirmədən tez bərpa etmək üçün real vaxt rejimində «nə baş verdiyini» və «niyə» başa düşmək.
Prinsipləri: SLO-first, «qızıl siqnallar» (latency, traffic, errors, saturation), vahid telemetriya standartı (OpenTelemetry), minimum kifayət qədər detallar, izahlılıq, cost-aware müşahidə.
2) Müşahidə qatları
1. Metriklər: SLI/SLO, capacity və trendlər üçün aqreqatlar (RED/USE modelləri).
2. Treys: sorğu, ödəniş və oyun əməliyyatlarının səbəb-nəticə zəncirləri.
3. Qeydlər/tədbirlər: Operator/xidmətlərin fəaliyyətinin ətraflı konteksti və auditi.
4. Sintetik (black-box): Xarici API/Web yolları, PSP/KYC Chels Pings.
5. RUM (real istifadəçi): ön metriklər (TTFB, LCP, JS səhvləri), geo/cihaz dilimləri.
6. Aşağı səviyyəli telemetriya: eBPF/CPU profili/IO/alloc, şəbəkə gecikmələri.
3) SLI dəsti və «qızıl siqnallar»
Latency: p50/p95/p99 kritik yollarla (giriş, depozit, faiz, çıxış).
Errors: 5xx/timeout/decline payı (provayderlər/banklar üzrə normallaşma ilə).
Traffic/Throughput: RPS/TPS, aktiv sessiyalar, hadisələr/san.
Saturation: CPU/RAM/IO yükləmə, növbə dərinliyi, pool-usage, replication lag.
Biznes SLI: Uğurlu depozitlər/pəncərə başına% faiz dərəcələri, KYC/PSP dönüşüm sapmaları, chargeback payı.
4) Telemetriya arxitekturası
Standartlaşdırılmış enjest: OpenTelemetry SDK/collector → normallaşdırma, sampling, privacy-filtres → saxlama (TSDB, tracking, log).
Korrelyasiya: trace-id/span-id log və metriklərdə (exemplars); ödənişlər/oyun hadisələri üçün vahid correlation-id.
Topologiya: servis-mapa (service graph), canlı SLI ilə asılı xarici provayderlər.
Dəyər idarəetmə: retensiya, aqreqasiya səviyyələri, dinamik sampling, «isti «/» soyuq »saxlama sinifləri.
5) Metrika: dizayn və kardinallıq
Qaydalar: az sayda etiket, time-series-də high-cardinality (userId, sessionId) qadağası; belə detallar - yalnız trass/logi.
RED/USE: Requests-Errors-Duration для API; Utilization-Saturation-Errors infrastruktur üçün.
Exemplars: yüksək üzlüklərin xüsusi trace nümunələrinə bağlanması.
Biznes metrikası: $/RPS, PSP-nin banklara/GEO-ya çevrilməsi, provayderlərin uğursuzluğa davamlılığı.
6) Trace: dərinlik və sampling
Kontekst: ön → API → broker → iş → DB/PSP vasitəsilə trace kontekstini atın.
Sampling: əsas 1-10%, anomaliyalarda - dinamik artım (tail-based).
Fokus: ödəniş flow (init → auth → capture/settle), oyun əməliyyatları (bet → settle), KYC (init → verify).
Şərhlər: PSP cavab kodu, bank-BIN/issuer-kateqoriya, region, risk-skor.
7) Qeydlər və audit
Strukturlaşdırılmış qeydlər: JSON, profil səviyyəsi (prodda INFO, hata ayıklamada DEBUG).
Gizlilik filtrləri: PII maskalanması, looklarda xam KYC sənədlərinin qadağan edilməsi.
Audit hadisələri: kim/nə/harada/nə vaxt/nə üçün, ID bileti, yüksək riskli əməliyyatlar üçün pre/post dəyərləri (bonuslar, limitlər, PSP-marşrutlaşdırma).
Dəyişməzlik: WORM/immutable, imza, siyasət retenshn.
8) Vəziyyətə nəzarət (sağlamlıq)
Liveness/Readiness/Startup: Düzgün testlər (liveness xarici asılılığı yoxlamaq deyil).
Degraded-mode: Alertlər və status səhifəsinin razılaşdırılması üçün xidmətin pozulmasının açıq bayraqları.
Budget health: burn-rate büdcə səhvləri (sürətli/yavaş pəncərə), resursları və növbələri ilə headroom.
9) Alerting və erkən xəbərdarlıq
SLO-alertlər: səhv büdcəsinə görə (4 saatlıq və 1 saatlıq pəncərələr) «xam» p95 əvəzinə.
Anomaliyalar: STL/IQR/5xx sıçrayışları üçün onlayn detektorlar, xüsusi GEO/bankda PSP icazələrinin düşməsi.
Root-cause hints: Alertləri son buraxılışlar/fitzeflags/planlı işlərlə əlaqələndiririk.
Runbooks: Hər bir alertin playbook linkləri, qrafiklər, «sürətli yoxlamalar» var.
10) Daşbordlar (kim və nə görür)
Exec: aptime/SLO, burn-rate, uğurlu depozitlər/dərəcələr, provayder statusu, tutum proqnozu və $/RPS.
SRE/platforma: RED/USE xidmətlər, növbələr/lag, pool-usage, replication lag, CDN/WAF, eBPF-profillər.
Payments/Risk: PSP/Bank/GEO, soft/hard declines, KYC vaxtı, chargeback early-signals.
Support/CS: Hadisə status paneli, SLA cavabları, FAQ makrosları.
11) Müşahidə dəyərinin idarə edilməsi (FinOps-Observability)
Retenshn: «xam» yollar üçün 7-14 gün, aqreqatlar daha uzun; seçici - isti xidmətlər.
Sampling/aqreqasiya: anomaliyalar, köhnə sıraların downsampling dinamik sampling.
Ingest siyasətçiləri: səs-küy (sağlamlıq pinqləri, həddindən artıq log), yüksək cardinality metrik kvotaları kəsin.
KPI dəyəri: $/GB ingest, $/trace, $/SLI dashboard; top yeyənlər tərəfindən dövri ağlama.
12) Gizlilik və uyğunluq
PII/maliyyə: kamuflyaj, tokenizasiya, telemetriyada məlumatların minimuma endirilməsi.
Geo-lokalizasiya: yurisdiksiya üzrə saxlama və emal; log-ixrac - yalnız şifrələmə və TTL ilə təsdiq workflow vasitəsilə.
Telemetriyaya giriş auditi: RBAC/ABAC, boşaltma üçün SoD, sorğu jurnalı.
13) Hadisə menecmenti və buraxılışlarla inteqrasiya
Status-səhifə: Hadisə kartından avtomatik yeniləmələr.
Release-gate: SLI üzrə kanarya analizi, burn-rate> eşik zamanı avtomatik stop reliz.
Post-mortem: trass/log, faktiki SLI və Windows pozuntuları.
14) Praktik tətbiq metodikası (8-12 həftə)
Ned. 1-2: kritik yolların və SLI-nin inventarlaşdırılması; yığın seçimi (OTel, TSDB, log, trek); asılılıq xəritəsi.
Ned. 3-4: 3-5 əsas xidmətlərdə (login/depozit/bahis), əsas RED/USE, trace-kontekstdə OTel-in tətbiqi.
Ned. 5-6: SLO və burn-rate-alertlər; PSP/KYC tərəfindən sintetik; ilk runbooks; web/mobile RUM.
Ned. 7-8: dinamik sempling, exemplars, servis mapa; Exec/SRE/Payments dashboard.
Ned. 9-10: eBPF/isti dar yerlərin profili; privacy-filterlər; kvota/retensiya.
Ned. 11-12: SLI buraxılış geytaları və avto-rollback; status-səhifə ilə inteqrasiya; tabletop-təlimlər.
15) Artefakt şablonları
Xidmətin SLO kartı: SLI, hədəflər, pəncərələr, səhv büdcəsi, alertlər, sahiblər.
Alert Spec: metrika/şərt, eşik, dedup/sillens, alıcılar, runbook.
Dashboard Spec: auditoriya, suallar, 6-8 widget, məlumat mənbəyi, yeniləmə tezliyi.
Telemetry Policy: hansı sahələr icazə/qadağan, retenshn, maskalama, ixrac.
Cost Review Pack: Top seriyası/log axını, sampling/TTL təklif, gözlənilən qənaət.
16) KPI müşahidə funksiyaları
MTTA/MTTR (SLO-alertinq tətbiqindən sonra təkmilləşdirmə).
Istifadəçilərin şikayətlərindən əvvəl sintetik/SLI tərəfindən aşkar edilən hadisələrin% -i.
Əllə müdaxilə etmədən SLI-dən keçən buraxılışların payı.
Diaqnostikliyi saxlayarkən telemetriya üçün $/RPS azaldılması.
Kritik yolları izləmək (> 90%).
Korrelyasiya dəqiqliyi «yeniləmə statusu, faktiki SLI».
17) Antipattern
«Hər şey» → partlayış dəyəri və səs-küy.
SLO/burn-rate → pager-fatigue əvəzinə «xam» metriklər üzrə alertlər.
Metriklərin yüksək kardinallığı (userId) → TSDB-fırtınalar.
Biznes konteksti olmayan treys (PSP/bank/GEO) → heç bir insight.
Relizlər/hadisələr ilə müşahidə əlaqəsi yoxdur → telemetriya ayrıca yaşayır.
Yekun
Müşahidə və vəziyyətə nəzarət alətlər dəsti deyil, idarə olunan sistemdir: düzgün SLI/SLO → standartlaşdırılmış telemetriya və korrelyasiya → SLO-alertinq və runbooks → relizlər və status-kommunikasiya ilə inteqrasiya → cost-aware əməliyyat və məxfilik. Belə bir kontur, hətta həddindən artıq trafik zirvələrində erkən siqnallar, sürətli RCA və iş sabitliyi verir.