Növbə və performans analitikası
1) Məqsəd və dəyəri
Smena analitikası 24 × 7 əməliyyatların idarə olunmasını proqnozlaşdırıla bilən ölçmə sistemidir: SLO əhatə dairəsini təsdiqləyir, dar yerləri (gecə yuvaları, həddindən artıq yüklənmiş domenlər) aşkar edir, tükənmənin qarşısını alır və hendoverlərin keyfiyyətini artırır. iGaming üçün bu, depozitlərin/settllərin sürətinə, KYC/AML şərtlərinə və nüfuzuna birbaşa təsir göstərir.
2) Metrik taksonomiya
2. 1 Əhatə və hazırlıq
Coverage Rate - tam tərkibli saatların% -i (rol/domen/region üzrə).
On-Call Readiness - təyin edilmiş IC/CL və valid kontaktları olan növbələrin payı.
Handover SLA - transfer pəncərəsinə (10-15 dəq) və çek siyahısına riayət edin.
2. 2 Reaksiya və bərpa sürəti
MTTA/MTTR (Day/Swing/Night slotları üzrə, domenlər üzrə): mediana, p90.
Detection Lead - SLI deqradasiyası ilə ilk hərəkət arasındakı laqdır.
Post-Release Monitoring Time - faktiki buraxılış monitorinqi.
2. 3 Keçid keyfiyyəti
Handover Defect Rate - yoxlama siyahısının doldurulmamış bəndləri.
Info Drift - var-rum, ITSM və status-kanal arasında faktların fərqi.
Action Carryover - sahibi/ETA olmadan «köçən» tapşırıqların payı.
2. 4 Yük və yorğunluq
Pager Fatigue: alert/adam/həftə, gecə page, P1/adam/növbə.
Escalation Density: L2/L3 çatan hadisələrin payı (L1 runbook fikslərinə qarşı).
Idle vs. Busy Ratio: məhsuldar yükləmə vaxtı vs. gözləmə.
2. 5 Səmərəlilik və avtomatlaşdırma
Auto-Fix Rate - avto/bot ilə həll olunan hadisələr.
Runbook Usage - standart ssenarilərə görə qapalı olan alertlərin% -i.
First Contact Resolution (FCR) - eskalasiya olmadan L1 səviyyəsində bağlanır.
Mean Time Between Incidents (MTBI) - domen/slot sabitliyi.
2. 6 Ədalət və sabitlik
Fair-Share Index - insanlar üçün gecələrin/həftəsonlarının bərabərliyi.
Replacement SLA - növbəyə 48 saat ≥ təsdiqlənmiş əvəzetmələr.
Training Coverage - onbording üçün shadow slot ilə növbələrin payı.
2. 7 Biznes bağlantısı
SLO Impact Score - SLO yaşıl zonada nə qədər vaxt dəyişdi.
Revenue at Risk (proxy) - növbədə P1/P2 itirilmiş gəlirin qiymətləndirilməsi.
Partner Latency/Declines - PSP/KYC tərəfdaşlarının növbə hadisələrinə verdiyi töhfədir.
3) Data modeli
3. 1 Hadisə taxılı
shift_event: başlanğıc/son, tərkib, rollar (IC/CL/L1/L2), region, domenlər.
alert_event: siqnal, prioritet, sahibi, bağlanma, runbook/auto yardım.
incident_event: P1-P4, vaxt, IC/CL, status-post.
handover_check: çek siyahısı işarələri + qüsurlar/şərhlər.
release_watch: müşahidə pəncərələri, geytalar, avtomatik geri çəkilmələr.
worklog: məhsuldar dəqiqələr (diaqnostika, fiks, comm-update, post-mortem).
fatigue_signal: çağrı/gecə tezliyi, işlənmiş saat.
3. 2 Sxem (sadələşdirilmiş)
Ключи: `timestamp`, `tenant`, `region`, `environment`, `domain`, `role`, `severity`.
Saxlama variantları: hadisə lake (parquet/iceberg) + DWH/TSDB pre-aqreqatları.
PII siyasəti: yalnız aqreqatlar və təxəllüslər; e-mail/ID maskalanır.
4) Məlumatların toplanması (ETL)
1. ChatOps/bot: '/handover ', '/incident', '/runbook '→ WORM jurnalı.
2. ITSM: hadisələrin/biletlərin statusu, varrumlarla əlaqə.
3. Metrics API: SLI/SLO (auth-success, bet→settle p99, error-rate), KRI (queue lag, PSP declines).
4. Növbə planlaşdırıcısı: təqvimlər, əvəzetmələr, rollar, gölgələr.
5. CI/CD: buraxılışlar, müşahidə pəncərələri, avtomatik geri çəkilmələr.
ETL normallaşdırır, 'shift _ slot' (Day/Swing/Night) əlavə edir, derived-metrikləri hesablayır (MTTA/MTTR, Fair-Share).
5) Daşbordlar
5. 1 Exec (həftə/ay üçün baxış)
CFR, MTTR, Auto-Fix Rate, SLO Impact, Revenue-at-Risk (proxy).
Slotların və domenlərin həddindən artıq yüklənməsi xəritəsi (istilik).
5. 2 Ops/SRE (aylıq/gündəlik)
Real vaxt paneli: açıq P1-P4, burn-rate, növbələr/replikasiyalar, guardrails.
Hendover-kart status check-list və qüsurları.
Fatigue paneli: peyci/adam, gecə/adam (son 4 həftə), xəbərdarlıqlar.
5. 3 Team/Domain
MTTA/MTTR domain, FCR, Runbook Usage, L2/L3 eskalasiya payı.
xüsusi komanda üçün Fair-Share və Replacement SLA.
6) Formullar və eşiklər
Coverage Rate = örtülü saat/168. Hədəf ≥ 99%.
Handover SLA = köçürmə yerinə yetirildiyi və yoxlama siyahısının 15 dəq (hədəf ≥ 95%) ≤ bağlı olduğu növbələr.
Pager Fatigue (həftə) : p95 alert/adam ≤ hədəf; > p90-da xəbərdarlıq.
Fair-Share Index = 1 − (σ gecə/ target_nochey). Məqsəd ≥ 0. 8.
Auto-Fix Rate ≥ 40% L1 rüb üçün (məqsəd yetkinlik asılıdır).
Runbook Usage ≥ 70% təkrar alert üçün (top 10 siqnalları).
MTTA/MTTR və Defect Rate üçün nəzarət kartları (X-MR, p-charts); nəzarət həddini aşarkən alertlər.
7) Analitik metodlar
Anomaliyalar: Alert və MTTA/MTTR ilə STL/ESD/CUSUM, Autlaers və səbəbləri qeyd (azad, provayder).
Yükün proqnozlaşdırılması: Prophet/ARIMA alert və slot P1/P2 → FTE planlaşdırma.
Nəticənin atributasiyası: proseslərdə dəyişikliklərin uplift modeli (məsələn, yeni hendover şablon) → MTTR.
Nəzarət təcrübələri: Daxili proseslərdə A/B (check-list variantı, yeni runbook).
Kogort analizi: təcrübəli yeni başlayanların performansı (shadow → solo).
8) İnteqrasiya
Hadisə-bot: növbə metriklərini yerləşdirir, qapalı olmayan hendoveri xatırladır, retro başlayır.
Release portalı: yük zirvələri ilə reliz pəncərələri birləşdirir; qırmızı SLO-da auto-pause.
Metrics API: RCA üçün hazır SLO + exemplars (trace_id).
HR/PTO: büzülmə faktorları (shrinkage) → fair-share planlaşdırma və analitikası.
9) Siyasət və RACI
Ops Analytics Owner (SRE/Platform): data modeli, dashboard, metrik dəqiqlik.
Service Owners: Domain siqnallarının şərhi, təkmilləşdirmə planları.
Duty Manager: həftəlik KPI/KRI təhlili, slot balansı.
Compliance/Sec: Telemetriya və hesabatlarda PII/SoD-yə riayət etmək.
Training Lead: analitik nəticələrdən onbording planları.
10) Artefakt şablonları
10. 1 Metrik kataloq (YAML)
yaml apiVersion: ops.analytics/v1 kind: MetricCatalog items:
- id: coverage_rate owner: "SRE"
formula: "covered_hours / 168"
slice: ["region","slot","domain"]
target: ">=0.99"
- id: mtta_p50 owner: "Ops"
formula: "median(ack_ts - alert_ts)"
slice: ["slot","severity","domain"]
target: "<=5m (P1)"
- id: handover_defect_rate owner: "Ops"
formula: "defects / handovers"
target: "<=5%"
- id: pager_fatigue_p95 owner: "SRE"
formula: "p95(alerts_per_person_week)"
target: "<=team_threshold"
10. 2 Sorğu nümunəsi (SQL-aqreqat)
sql
SELECT slot, domain,
percentile_cont(0.5) WITHIN GROUP (ORDER BY ack_s-emit_s) AS mtta_p50,
percentile_cont(0.9) WITHIN GROUP (ORDER BY ack_s-emit_s) AS mtta_p90,
AVG(auto_fix)::float AS autofix_rate
FROM alerts_fact
WHERE ts BETWEEN:from AND:to AND severity IN ('P1','P2')
GROUP BY slot, domain;
10. 3 Hendover çek siyahısı (keyfiyyət siqnalları)
SLO/SLI xülasə tətbiq
Açıq hadisələrin sahibləri var/ETA
Planlaşdırılmış iş/relizlər bağlı
Provayder riskləri qeydə alınıb
Komm layihələri hazırdır
On-call əlaqə aktualdır
Watchlist yeniləndi
11) Risklərin və təkmilləşdirmələrin idarə edilməsi
KRI: gecə slot DLQ/queue-lag artım, FCR düşməsi <hədəf, Info Drift sıçrayış.
Təkmilləşdirmə planı: ən yaxşı 3 uğursuzluqlar üçün sahibləri/ETA ilə həftəlik Ops planı.
Smena intizamının post-mortemi: hendover qüsurları və alertlərin flappinqi üzrə retro.
Prosessual A/B: MTTR/Auto-Fix-də yeni qaydaların təsirinin yoxlanılması.
12) KPI/OKR nümunələri (rüb)
KR1: MTTR P1 (mediana) ↓ 22 dəqiqədən 15 dəqiqəyə qədər.
KR2: Handover SLA ≥ üç yuvada 95%.
KR3: Auto-Fix Rate ≥ ən yaxşı 10 siqnal qaydaları üçün 45%.
KR4: Pager Fatigue p95 ↓ 20% (alerting optimallaşdırdıqdan sonra).
KR5: Fair-Share Index ≥ 0. Bütün komandalarda 85.
13) Yol xəritəsi (6-10 həftə)
Ned. 1-2: hadisə sxemləri, botdan ETL/ITSM/Metrics API, metriklərin ilk kataloqu, baza daşbordları.
Ned. 3-4: nəzarət kartları və eşiklər, fatigue panel, əl-keyfiyyət, relizlər ilə bağlama.
Ned. 5-6: yük proqnozlaşdırılması (slots/domen), fair-share və replacement-analitika.
Ned. 7-8: avto məsləhətləri (hansı runbooks avtomatlaşdırmaq), avtomatik fikslərin ROI hesabatları, retro şablonları.
Ned. 9-10: Proseslərdə təcrübələr (A/B çek vərəqləri), Exec panellərində KPI, komandaların təlimi.
14) Antipattern
Yalnız qapalı biletlərin sayına görə (MTTR/SLO konteksti olmadan) «növbənin uğurunu» hesablayın.
Hendover qüsurlarına məhəl qoymayın («onsuz da aydındır»).
Trafik/mövsümi pik həcminə görə normallaşmayan metriklər.
Çətinlik/giriş şərtləri nəzərə alınmadan fərdiləşdirmə və «insanların reytinqləri».
fair-share → tükənmə və artan səhvlər yoxdur.
Relizlər/təcrübələr ilə sıfır korrelyasiya → yanlış nəticələr.
WORM auditi və PII siyasəti olmadan məlumat.
Yekun
Növbə və performans analitikası ChatOps, ITSM və telemetriya üzərində istehsal ölçmə sistemidir: KPI/KRI dəqiq taksonomiyası, düzgün data modelləri, müxtəlif rollar üçün dashbordlar, statistik metodlar və SLO/biznes effekti ilə əlaqə. Bu yanaşma yükləri bərabərləşdirir, reaksiyanı sürətləndirir, tükənməni azaldır və iGaming platformasının əməliyyatlarının keyfiyyətini əvvəlcədən yaxşılaşdırır.