GH GambleHub

Əməliyyatlar və İdarəetmə → Metrik audit və SLA

Metrik və SLA auditi

1) Niyə lazımdır

Metriklər səhv olarsa, qərarlar səhv olacaq, SLA «kağız üzərində» pozulacaq və ya əksinə problemləri gizlədir. Metrik və SLA auditi istifadəçilər və tərəfdaşlar qarşısında vədlərin müqayisəli, etibarlı və qanuni qorunmasını təmin edir.

Məqsədlər:
  • Vahid «həqiqət mənbəyi» (SSOT) və təkrar hesablamalar təmin edin.
  • Dashboard/hesabatlar/billing arasındakı fərqləri azaltın.
  • SLA-nı mümkün və yoxlanıla bilən etmək (evidence-based).
  • Ölçülərdə deqradasiyanı müəyyən etmək xidmətlərdə olduğu kimi tezdir.

2) Məsuliyyətin əsas anlayışları və sərhədləri

Metrik (metrika): ölçülən kəmiyyət (RPS, p95, CR, GGR, Success Rate).
KPI/OKR: Metriklərin bağlı olduğu hədəflər.
SLO: məqsədli xidmət keyfiyyəti (məsələn, "p99 ≤ 400 ms 99. 9% vaxt").
SLA: xarici vəd; hüquqi əhəmiyyətli, SLO əsaslanır.
OLA: komandalar/satıcılar arasında daxili müqavilə, SLA dəstəkləyir.
SSOT: məlumatları hesabatlar üçün istinad hesab olunan sistem/saxlama.

3) Metriklərin taksonomiyası (laylar)

1. Infrastruktur: CPU/Memory/IO/Net, pod/node, HPA/VPA.
2. Platforma: növbələr/axınlar (lag, throughput), BD/caches (konnektlər, hit), API (p95/p99, 5xx).
3. Biznes axınları: depozitlər/çıxışlar, dərəcələr, oyunların başlaması, avtorizasiya, KYC.
4. Məhsul/marketinq: dönüşüm, ARPPU/LTV, kampaniyalar.
5. Proseslərin keyfiyyəti: MTTA/MTTR, Change Failure Rate, çek vərəqlərini əhatə edir.

Qayda: Hər metrika bir təbəqə, sahibi və düsturu olmalıdır.

4) Məlumat mənbələri və «həqiqət»

Onlayn teleemetriya: Prometheus/OTel, loqlar (ELK/ClickHouse), izlər.
Hadisələr və mühasibat: Kafka/Outbox, DWH/Date-mart (BigQuery/ClickHouse).
Əl əsərləri: postmortemlər, biletlər, insidentlərin reyestrləri.
Xarici reyestrlər: provayderlərin hesabatları (PSP/KYC/studiyalar), billing.

Münaqişənin həlli: «onlayn vs DWH» uyğunsuzluqları zamanı prioritet tənzimləmə qüvvədədir (məsələn, SLA üçün - mənbə izləmə qabiliyyətinə malik DWH-dən olan aqreqatlar).

5) Metrik audit prosesi (idarəetmə konturu)

1. Inventarizasiya: metrik kataloq/SLO/SLA (adı, sahibi, təbəqə, formula, mənbə, hesablama tezliyi).
2. Formulların yoxlanılması: SQL/promosyon sorğularının tərifi ilə yoxlanılması (vahid hesablama testləri).
3. Sampling və yenidən yoxlama: hadisə/log sətir nümunələri və əl ilə yoxlama.
4. Konturların müqayisəsi: onlayn dashboard və DWH hesabatlarının müqayisəsi.
5. Dəyişikliklərə nəzarət: sxemlərin/məntiqin buraxılması zamanı formulların review.
6. SLA auditi: montaj və istisnaların düzgünlüyünün yoxlanılması (planned maintenance, fors-major).
7. Hesabat və təkmilləşdirmələr: aşkar edilmiş uyğunsuzluqların və müddətli fikslərin siyahısı.

6) Təriflər və düsturlar (nümunələr)

Success Rate (API):
  • `success = requests - (5xx + timeouts + circuit_open)`
  • `success_rate = success / requests`
Latency p95/p99:
  • SSOT vahid pəncərə (5m/1h rolling) və aqreqasiya (HDR/TDigest) müəyyən edir.
SLO (nümunə):
  • 'SLO _ availability _ month = (iş vaxtı - icazə verilən _ istisnalar )/ümumi _ vaxt'
SLA (provayder üçün nümunə):
  • `SLA_month = 99. Planlı pəncərələr (90% bildiriş), tranzit operatorlarında sübuta yetirilən qəzalar (sənədlər) istisna olmaqla, UTC pəncərəsi ilə aptaym T-48. '

7) Məlumat keyfiyyəti: yoxlamalar və risklər

Keyfiyyət yoxlamaları:
  • Полнота (completeness): `received_events / expected_events ≥ 0. 99`.
  • Vaxtında (timeliness): yükləmə gecikməsi ≤ N dəqiqə.
  • Uniqueness: düymələr olmadan (idempotency-key).
  • Uyğunluq (consistency): məbləğlər/valyuta/işarələr.
  • Lineer (monotonicity): sayğaclar «yuvarlanmır».
Ölçmə keyfiyyəti (ideya) üçün risklər:

ALERT MetricsIngestionLagHigh
IF dwh_ingest_lag_minutes > 15 FOR 10m

ALERT EventsCompletenessDrop
IF (events_received / events_expected) < 0. 99 FOR 15m

ALERT DuplicateEventsSpike
IF rate(events_duplicates_total[10m]) > baseline_7d 2

8) SLA/OLA auditi: metodika

1. İstisna təqvimini toplayın: planlaşdırılmış pəncərələr, razılaşdırılmış deqradasiyalar, satıcıların aktları.
2. Aptaym hesablanması: SSOT-a əsaslanan vahid vaxt zonası üzrə.
3. Hadisələrlə müqayisə: time line, biletlər, postmortemlər.
4. Atributlar: öz nasazlıqlar, provayder, tranzit, DDoS, tənzimləmə işləri.
5. SLA perimetri: istifadəçi təcrübəsi (E2E) vs bir xüsusi API.
6. Hesabat: ay/rüb üzrə hesabat: fakt, sapmalar, kompensasiyalar (mümkünsə), düzəliş tədbirləri.

9) Hesablamaların təkrarlanabilirliyinin yoxlanılması

Formulların versiyalaşdırılması: SQL/PromQL/Dock Specifications ilə Git-Repository.
Vahid metrik testlər: synthetic data (edge-cases: pass, dubley, tarix sərhədləri).
Data lineage: dashboard geri orijinal cədvəllər və hadisələr.
Snapshot: yenidən hesablamaları müqayisə etmək üçün kəsmə məlumatlarını dondurun.

10) Nəzarət nümunələri (sampling)

Gündəlik: Əsas axınlar üzrə 10-20 hadisə (depozit/bahis/KUS) - DWH izinin əl ilə yoxlanılması.
Həftəlik: 1% yığımlar üzrə «online vs DWH» müqayisə üçün sampl.
Aylıq: SLA effekti hadisələrinin dəsti - ətraflı yenidənqurma.

Nümunə aktı şablonu (qısa):

Date/Window: 2025-10-01.. 2025-10-07
Metric: SLO_api_p99
Source A: Prometheus (rolling 5m)
Source B: DWH snapshot (1h buckets)
Deviation: + 6. 2% (A above B)
Reason: different aggregation windows
Action: align window in both contours to 5m/rolling
Term/Owner: 2025-11-10/squad-observability

11) Daşbordların və xəbərdarlıqların auditi

Vahid metrik lüğət: lüğət birbaşa daşbordda.
Relizlərin/tədbirlərin şərhləri: sapmaların səbəbini görmək.
«Buraxılışdan əvvəl/sonra» müqayisə: avtomatik reqressiya panelləri.
Dubli/uyğunsuzluqlar: «iki fərqli p99» - düsturların/pəncərələrin düzəldilməsi.
Panellərin mövcudluğu: hüquqlar, ehtiyat, link/versiya nəzarəti.

12) Metrik dəyişikliklərin idarə edilməsi

RFC prosesi: formula/pəncərə/mənbə dəyişikliyi - SLA/hesabatlara təsir qiymətləndirilməsi ilə RFC vasitəsilə.
«expand → migrate → contract» miqrasiyası: müvəqqəti olaraq hər iki versiyanı aparırıq, müqayisə edirik, sonra köhnəsini söndürürük.
Rabitə: məhsul/biznesi «yeni metodologiyaya uyğun» qiymətlərin dəyişməsi barədə əvvəlcədən xəbərdar edin.

13) iGaming/Fintech xüsusiyyətləri

Tələbin zirvələri: metrlər partlayıcı yüklərə dözməlidir (aqreqasiyalar «yapışmır»).
Provayderlər: SLA OLA satıcılarından asılıdır → onların hesabatlarını, hadisə statuslarını və kvotalarını saxlayın.
Qiymət: 'cost _ per _ 1k _ calls' və «uğur dəyəri» - məcburi panellər.
Antifrod/risk: gecikmələrə və metriklərin «yanlış işləməsinə» həssaslıq.

14) Dashboard audit (minimum dəsti)

Metrics Health: completeness/timeliness/duplicates, ingest-lag, ошибки ETL.
SLO/SLA Evidence: hesablanmış SLO, faktiki SLA, istisnalar, hadisələrə/aktlara istinadlar.
Online vs DWH Compare: p95/p99/Success Rate, sapmalar və trendlər.
Vendor SLA: uptime/kvotalar/time-auts/provayderlər baxımından dəyəri.
Release Impact: reqressiya metrik/fich daxil sonra.

15) Audit yoxlama siyahısı (əməliyyat)

  • Sahibləri və düsturları olan metrik/SLO/SLA kataloqu aktualdır.
  • SSOT hər hesabat/panel üçün müəyyən edilmişdir.
  • Vahid düstur testləri yaşıl, hesablamalar paylayıcıları sənədləşdirilmişdir.
  • Məlumatların keyfiyyətinə görə risklər aktivdir (completeness/timeliness/duplicates).
  • «Online vs DWH» ≤ icazə həddi uyğunsuzluqları (məsələn, ≤ 2%).
  • Razılaşdırılmış SLA istisnaları sənədləşdirilmiş və hesabata əlavə edilmişdir.
  • Nəzarət nümunələri aparılıb və aktlar tərtib edilib.
  • Bütün düstur dəyişiklikləri RFC və miqrasiya keçdi.

16) Nümunələr (fraqmentlər)

PromQL - buraxılışdan əvvəl/sonra p99 müqayisə:

api_p99_ms:release:ratio =
(api_latency_p99_ms{release="after"} / api_latency_p99_ms{release="before"})
SQL - hadisələrin tamlığına nəzarət:
sql
SELECT event_date,
COUNT() AS received,
SUM(expected_count) AS expected,
COUNT()::decimal / NULLIF(SUM(expected_count),0) AS completeness
FROM events
JOIN expected_events USING (event_date, event_type)
WHERE event_type IN ('deposit','bet_placed','kyc_completed')
AND event_date BETWEEN:from AND:to
GROUP BY 1;
Alertmanager qaydası - kontur uyğunsuzluğu:

ALERT DwhVsOnlineDrift
IF abs(dwh_kpis{metric="api_p99"} - online_kpis{metric="api_p99"}) > 0. 02 online_kpis
FOR 30m
LABELS {severity="warning", team="observability"}

17) Anti-nümunələr

Müxtəlif panellərdə «bir» metrikanın iki fərqli düsturu.
Miqrasiyasız metrikanın dəyişdirilməsi - OKR/SLA-da «sıçrayışlar».
Yerli Excel hesabatları «həqiqət» kimi (bərpa olunmur).
SLA hesablamalarında saat zonaları və təqvimlərin qarışdırılması.
SLA istisnaları sənədləşdirilmir.
Ölçmə keyfiyyətinə dair heç bir alert yoxdur.

18) KPI yetkinlik ölçü

DWH Online Drift Rate (hədəf ≤ 2%).
Metrics Health Uptime (ingest/ETL deqradasiyasız vaxt).
Time-to-Fix Formula (formula səhvinin aradan qaldırılması vaxtı).
SLA Dispute Rate (tərəfdaşlarla mübahisəli halların tezliyi).
Coverage SLO/SLA (rəsmi olaraq təsvir edilmiş SLO/SLA ilə kritik yolların payı).

19) Rollar və məsuliyyət

Metrika/xidmət sahibi: formula, mənbə, daşbord, alertlər.
Observability/SRE: SSOT/platforma, düstur testləri, məlumatların keyfiyyəti.
Data/BI: DWH, hesabatların təkrarlanabilirliyi, lineage.
Hüquqşünaslar/tərəfdaş menecerlər: SLA razılaşmaları və istisnaları.
Hadisə meneceri: SLA ilə hadisələrin atributu və birləşməsi.

20) Sürətli başlanğıc (30 gün)

Həftə 1: metrik/SLO/SLA və sahiblərinin inventarlaşdırılması; SSOT təyin edin.
Həftə 2: Məlumat keyfiyyəti və «Online vs DWH» panelini aktivləşdirin.
Həftə 3: nəzarət nümunələri keçirmək, p95/p99 pəncərəsini bərabərləşdirmək.
Həftə 4: Formulalar üçün RFC prosesini rəsmiləşdirin, tətbiqlərlə aylıq SLA hesabatını hazırlayın.

21) FAQ

Q: SLA üçün SSOT saymaq nədir?
A: Reproduktiv hesablamalar (DWH) və tam lineage ilə saxlama; onlayn panellər - hüquqi aktlar üçün deyil, operativ nəzarət üçün.

Q: «iki p99» ilə necə mübarizə aparmaq olar?
A: Metrik kataloqunda pəncərə/aqreqasiya üsulunu düzəltmək, panelləri miqrasiya etmək, sürüklənməyə alert əlavə etmək.

Q: Planlaşdırılan işləri necə nəzərə almaq olar?
A: istisnalar təqvimi aparın və müqavilənin qaydalarına əsasən onları avtomatik olaraq SLA-dan çıxarın; təsdiq edən artefaktları saxlamaq.

Contact

Bizimlə əlaqə

Hər hansı sualınız və ya dəstək ehtiyacınız varsa — bizimlə əlaqə saxlayın.Həmişə köməyə hazırıq!

Telegram
@Gamble_GC
İnteqrasiyaya başla

Email — məcburidir. Telegram və ya WhatsApp — istəyə bağlıdır.

Adınız istəyə bağlı
Email istəyə bağlı
Mövzu istəyə bağlı
Mesaj istəyə bağlı
Telegram istəyə bağlı
@
Əgər Telegram daxil etsəniz — Email ilə yanaşı orada da cavab verəcəyik.
WhatsApp istəyə bağlı
Format: ölkə kodu + nömrə (məsələn, +994XXXXXXXXX).

Düyməyə basmaqla məlumatların işlənməsinə razılıq vermiş olursunuz.