GH GambleHub

Müşahidə və vəziyyətə nəzarət

1) Məqsədlər və prinsiplər

Məqsəd: hadisələri xəbərdar etmək və SLO-nu pozmadan və OPEX-i şişirmədən tez bərpa etmək üçün real vaxt rejimində «nə baş verdiyini» və «niyə» başa düşmək.
Prinsipləri: SLO-first, «qızıl siqnallar» (latency, traffic, errors, saturation), vahid telemetriya standartı (OpenTelemetry), minimum kifayət qədər detallar, izahlılıq, cost-aware müşahidə.

2) Müşahidə qatları

1. Metriklər: SLI/SLO, capacity və trendlər üçün aqreqatlar (RED/USE modelləri).
2. Treys: sorğu, ödəniş və oyun əməliyyatlarının səbəb-nəticə zəncirləri.
3. Qeydlər/tədbirlər: Operator/xidmətlərin fəaliyyətinin ətraflı konteksti və auditi.
4. Sintetik (black-box): Xarici API/Web yolları, PSP/KYC Chels Pings.
5. RUM (real istifadəçi): ön metriklər (TTFB, LCP, JS səhvləri), geo/cihaz dilimləri.
6. Aşağı səviyyəli telemetriya: eBPF/CPU profili/IO/alloc, şəbəkə gecikmələri.

3) SLI dəsti və «qızıl siqnallar»

Latency: p50/p95/p99 kritik yollarla (giriş, depozit, faiz, çıxış).
Errors: 5xx/timeout/decline payı (provayderlər/banklar üzrə normallaşma ilə).
Traffic/Throughput: RPS/TPS, aktiv sessiyalar, hadisələr/san.
Saturation: CPU/RAM/IO yükləmə, növbə dərinliyi, pool-usage, replication lag.
Biznes SLI: Uğurlu depozitlər/pəncərə başına% faiz dərəcələri, KYC/PSP dönüşüm sapmaları, chargeback payı.

4) Telemetriya arxitekturası

Standartlaşdırılmış enjest: OpenTelemetry SDK/collector → normallaşdırma, sampling, privacy-filtres → saxlama (TSDB, tracking, log).
Korrelyasiya: trace-id/span-id log və metriklərdə (exemplars); ödənişlər/oyun hadisələri üçün vahid correlation-id.
Topologiya: servis-mapa (service graph), canlı SLI ilə asılı xarici provayderlər.
Dəyər idarəetmə: retensiya, aqreqasiya səviyyələri, dinamik sampling, «isti «/» soyuq »saxlama sinifləri.

5) Metrika: dizayn və kardinallıq

Qaydalar: az sayda etiket, time-series-də high-cardinality (userId, sessionId) qadağası; belə detallar - yalnız trass/logi.
RED/USE: Requests-Errors-Duration для API; Utilization-Saturation-Errors infrastruktur üçün.
Exemplars: yüksək üzlüklərin xüsusi trace nümunələrinə bağlanması.
Biznes metrikası: $/RPS, PSP-nin banklara/GEO-ya çevrilməsi, provayderlərin uğursuzluğa davamlılığı.

6) Trace: dərinlik və sampling

Kontekst: ön → API → broker → iş → DB/PSP vasitəsilə trace kontekstini atın.
Sampling: əsas 1-10%, anomaliyalarda - dinamik artım (tail-based).
Fokus: ödəniş flow (init → auth → capture/settle), oyun əməliyyatları (bet → settle), KYC (init → verify).
Şərhlər: PSP cavab kodu, bank-BIN/issuer-kateqoriya, region, risk-skor.

7) Qeydlər və audit

Strukturlaşdırılmış qeydlər: JSON, profil səviyyəsi (prodda INFO, hata ayıklamada DEBUG).
Gizlilik filtrləri: PII maskalanması, looklarda xam KYC sənədlərinin qadağan edilməsi.
Audit hadisələri: kim/nə/harada/nə vaxt/nə üçün, ID bileti, yüksək riskli əməliyyatlar üçün pre/post dəyərləri (bonuslar, limitlər, PSP-marşrutlaşdırma).
Dəyişməzlik: WORM/immutable, imza, siyasət retenshn.

8) Vəziyyətə nəzarət (sağlamlıq)

Liveness/Readiness/Startup: Düzgün testlər (liveness xarici asılılığı yoxlamaq deyil).
Degraded-mode: Alertlər və status səhifəsinin razılaşdırılması üçün xidmətin pozulmasının açıq bayraqları.
Budget health: burn-rate büdcə səhvləri (sürətli/yavaş pəncərə), resursları və növbələri ilə headroom.

9) Alerting və erkən xəbərdarlıq

SLO-alertlər: səhv büdcəsinə görə (4 saatlıq və 1 saatlıq pəncərələr) «xam» p95 əvəzinə.
Anomaliyalar: STL/IQR/5xx sıçrayışları üçün onlayn detektorlar, xüsusi GEO/bankda PSP icazələrinin düşməsi.
Root-cause hints: Alertləri son buraxılışlar/fitzeflags/planlı işlərlə əlaqələndiririk.
Runbooks: Hər bir alertin playbook linkləri, qrafiklər, «sürətli yoxlamalar» var.

10) Daşbordlar (kim və nə görür)

Exec: aptime/SLO, burn-rate, uğurlu depozitlər/dərəcələr, provayder statusu, tutum proqnozu və $/RPS.
SRE/platforma: RED/USE xidmətlər, növbələr/lag, pool-usage, replication lag, CDN/WAF, eBPF-profillər.
Payments/Risk: PSP/Bank/GEO, soft/hard declines, KYC vaxtı, chargeback early-signals.
Support/CS: Hadisə status paneli, SLA cavabları, FAQ makrosları.

11) Müşahidə dəyərinin idarə edilməsi (FinOps-Observability)

Retenshn: «xam» yollar üçün 7-14 gün, aqreqatlar daha uzun; seçici - isti xidmətlər.
Sampling/aqreqasiya: anomaliyalar, köhnə sıraların downsampling dinamik sampling.
Ingest siyasətçiləri: səs-küy (sağlamlıq pinqləri, həddindən artıq log), yüksək cardinality metrik kvotaları kəsin.
KPI dəyəri: $/GB ingest, $/trace, $/SLI dashboard; top yeyənlər tərəfindən dövri ağlama.

12) Gizlilik və uyğunluq

PII/maliyyə: kamuflyaj, tokenizasiya, telemetriyada məlumatların minimuma endirilməsi.
Geo-lokalizasiya: yurisdiksiya üzrə saxlama və emal; log-ixrac - yalnız şifrələmə və TTL ilə təsdiq workflow vasitəsilə.
Telemetriyaya giriş auditi: RBAC/ABAC, boşaltma üçün SoD, sorğu jurnalı.

13) Hadisə menecmenti və buraxılışlarla inteqrasiya

Status-səhifə: Hadisə kartından avtomatik yeniləmələr.
Release-gate: SLI üzrə kanarya analizi, burn-rate> eşik zamanı avtomatik stop reliz.
Post-mortem: trass/log, faktiki SLI və Windows pozuntuları.

14) Praktik tətbiq metodikası (8-12 həftə)

Ned. 1-2: kritik yolların və SLI-nin inventarlaşdırılması; yığın seçimi (OTel, TSDB, log, trek); asılılıq xəritəsi.
Ned. 3-4: 3-5 əsas xidmətlərdə (login/depozit/bahis), əsas RED/USE, trace-kontekstdə OTel-in tətbiqi.
Ned. 5-6: SLO və burn-rate-alertlər; PSP/KYC tərəfindən sintetik; ilk runbooks; web/mobile RUM.
Ned. 7-8: dinamik sempling, exemplars, servis mapa; Exec/SRE/Payments dashboard.
Ned. 9-10: eBPF/isti dar yerlərin profili; privacy-filterlər; kvota/retensiya.
Ned. 11-12: SLI buraxılış geytaları və avto-rollback; status-səhifə ilə inteqrasiya; tabletop-təlimlər.

15) Artefakt şablonları

Xidmətin SLO kartı: SLI, hədəflər, pəncərələr, səhv büdcəsi, alertlər, sahiblər.
Alert Spec: metrika/şərt, eşik, dedup/sillens, alıcılar, runbook.
Dashboard Spec: auditoriya, suallar, 6-8 widget, məlumat mənbəyi, yeniləmə tezliyi.
Telemetry Policy: hansı sahələr icazə/qadağan, retenshn, maskalama, ixrac.
Cost Review Pack: Top seriyası/log axını, sampling/TTL təklif, gözlənilən qənaət.

16) KPI müşahidə funksiyaları

MTTA/MTTR (SLO-alertinq tətbiqindən sonra təkmilləşdirmə).
Istifadəçilərin şikayətlərindən əvvəl sintetik/SLI tərəfindən aşkar edilən hadisələrin% -i.
Əllə müdaxilə etmədən SLI-dən keçən buraxılışların payı.
Diaqnostikliyi saxlayarkən telemetriya üçün $/RPS azaldılması.
Kritik yolları izləmək (> 90%).
Korrelyasiya dəqiqliyi «yeniləmə statusu, faktiki SLI».

17) Antipattern

«Hər şey» → partlayış dəyəri və səs-küy.
SLO/burn-rate → pager-fatigue əvəzinə «xam» metriklər üzrə alertlər.
Metriklərin yüksək kardinallığı (userId) → TSDB-fırtınalar.
Biznes konteksti olmayan treys (PSP/bank/GEO) → heç bir insight.
Relizlər/hadisələr ilə müşahidə əlaqəsi yoxdur → telemetriya ayrıca yaşayır.

Yekun

Müşahidə və vəziyyətə nəzarət alətlər dəsti deyil, idarə olunan sistemdir: düzgün SLI/SLO → standartlaşdırılmış telemetriya və korrelyasiya → SLO-alertinq və runbooks → relizlər və status-kommunikasiya ilə inteqrasiya → cost-aware əməliyyat və məxfilik. Belə bir kontur, hətta həddindən artıq trafik zirvələrində erkən siqnallar, sürətli RCA və iş sabitliyi verir.

Contact

Bizimlə əlaqə

Hər hansı sualınız və ya dəstək ehtiyacınız varsa — bizimlə əlaqə saxlayın.Həmişə köməyə hazırıq!

Telegram
@Gamble_GC
İnteqrasiyaya başla

Email — məcburidir. Telegram və ya WhatsApp — istəyə bağlıdır.

Adınız istəyə bağlı
Email istəyə bağlı
Mövzu istəyə bağlı
Mesaj istəyə bağlı
Telegram istəyə bağlı
@
Əgər Telegram daxil etsəniz — Email ilə yanaşı orada da cavab verəcəyik.
WhatsApp istəyə bağlı
Format: ölkə kodu + nömrə (məsələn, +994XXXXXXXXX).

Düyməyə basmaqla məlumatların işlənməsinə razılıq vermiş olursunuz.