Çalşyk we öndürijilik seljermesi
1) Maksady we gymmaty
Smena seljermesi - 24 × 7 amallary dolandyrmagy öňünden aýdyp boljak ölçeg ulgamy: SLO örtügini tassyklaýar, päsgelçilikleri (gijeki slotlary, aşa ýüklenen domenleri) ýüze çykarýar, ýadawlygyň öňüni alýar we hendowerleriň hilini ýokarlandyrýar. iGaming üçin bu, goýumlaryň/settleriň tizligine, KYC/AML-möhletlerine we abraýyna gönüden-göni täsir edýär.
2) Metrikleriň taksonomiýasy
2. 1 Ýapmak we taýynlyk
Coverage Rate - sagadyň% -i (rol/domen/sebit boýunça).
On-Call Readiness - bellenen IC/CL we walid kontaktlary bilen çalşyklaryň paýy.
Handover SLA - geçiriş penjiresiniň (10-15 minut) we çek sanawynyň berjaý edilmegi.
2. 2 Reaksiýanyň we dikeldişiň tizligi
MTTA/MTTR (Day/Swing/Night slotlary boýunça, domenler boýunça): mediana, p90.
Detection Lead - SLI-degradasiýa bilen ilkinji hereketiň arasynda.
Post-Release Monitoring Time - goýberilişine hakyky gözegçilik.
2. 3 Çalşygyň hili
Handover Defect Rate - çek sanawynyň doldurylmadyk nokatlary.
Info Drift - bar-rum, ITSM we status-kanalyň arasyndaky faktlaryň tapawudy.
Action Carryover - eýesiz/ETA "göçüp gelen" meseleleriň paýy.
2. 4 Ýük we ýadawlyk
Pager Fatigue: alertow/adam/hepde, gijeki page, P1/adam/smena.
Escalation Density: L2/L3 ýeten hadysalaryň paýy (L1 runbook fikslerine garşy).
Idle vs. Busy Ratio: öndürijilikli ýüklemek wagty vs. garaşmak.
2. 5 Netijelilik we awtomatlaşdyryş
Auto-Fix Rate - awto-hereketler/bot bilen çözülen hadysalar.
Runbook Usage - standart ssenariler boýunça ýapyk alertleriň%.
First Contact Resolution (FCR) - L1 derejesinde güýçlendirilmän ýapylýar.
Mean Time Between Incidents (MTBI) - domen/slot durnuklylygy.
2. 6 Adalat we durnuklylyk
Fair-Share Index - adamlar boýunça gijeleriň/dynç günleriniň birmeňzeşligi.
Replacement SLA - çalşykdan 48 sagat ≥ tassyklanan çalyşmalar.
Training Coverage - onbording üçin shadow-slotly çalşyklaryň paýy.
2. 7 Işewürlik baglanyşygy
SLO Impact Score - çalşyk SLO-ny ýaşyl zolakda näçe wagt saklady.
Revenue at Risk (proxy) - smenada P1/P2 ýitirilen girdejä baha bermek.
Partner Latency/Declines - PSP/KYC-hyzmatdaşlarynyň smena hadysalaryna goşan goşandy.
3) Maglumatlaryň nusgasy
3. 1 Wakalaryň dänesi
shift_event: başy/ujy, düzümi, rollary (IC/CL/L1/L2), sebiti, domenleri.
alert_event: signal, ileri tutulýan, eýesi, ýapylmagy, runbook/awtomatiki hereket.
incident_event: P1-P4, wagtlar, IC/CL, status-neşirler.
handover_check: çek sanawynyň bellikleri + kemçilikler/teswirler.
release_watch: gözegçilik penjireleri, geýtlar, awto-yza gaýdyşlar.
worklog: öndürijilikli minutlar (diagnostika, fiksler, komm-täzelenmeler, post-mortem).
fatigue_signal: jaň/gijeleriň ýygylygy, iş wagty.
3. 2 Shema (ýönekeý)
Ключи: `timestamp`, `tenant`, `region`, `environment`, `domain`, `role`, `severity`.
Saklamak wariantlary: waka lake (parquet/iceberg) + DWH/TSDB-de deslapky agregatlar.
PII syýasaty: diňe agregatlar we lakamlar; e-mail/ID gizlenýär.
4) Maglumatlary ýygnamak (ETL)
1. ChatOps/bot: '/handover ', '/incident', '/runbook '→ WORM magazineurnaly.
2. ITSM: wakalaryň/biletleriň ýagdaýy, war-rumlar bilen baglanyşyk.
3. Metrics API: SLI/SLO (auth-success, bet→settle p99, error-rate), KRI (queue lag, PSP declines).
4. Çalşygy meýilleşdiriji: senenamalar, çalyşmalar, rollar, şadow.
5. CI/CD: neşirler, gözegçilik penjireleri, awto-yza gaýdyşlar.
ETL kadalaşdyrýar, 'shift _ slot' (Day/Swing/Night) goşýar, derived-metrikleri hasaplaýar (MTTA/MTTR, Fair-Share).
5) Daşbordlar
5. 1 Exec (hepde/aý üçin syn)
CFR, MTTR, Auto-Fix Rate, SLO Impact, Revenue-at-Risk (proxy).
Slotlaryň we domenleriň artykmaç ýükleniş kartasy (ýylylyk).
5. 2 Ops/SRE (her çalşykda/her gün)
Hakyky wagt paneli: açyk P1-P4, burn-rate, nobatlar/göçürmeler, guardrails.
Çek-listiň we kemçilikleriň statusynyň hendower-kartasy.
Fatigue paneli: page/adam, gijeler/adam (soňky 4 hepde), duýduryşlar.
5. 3 Team/Domain
Domen boýunça MTTA/MTTR, FCR, Runbook Usage, L2/L3-da eskalasiýa paýy.
Belli bir topar üçin Fair-Share we Replacement SLA.
6) Formulalar we bosagalar
Coverage Rate = örtülen sagat/168. Maksat ≥ 99%.
Handover SLA =% smena, bu ýerde geçiriş tamamlandy we çek sanawy 15 minut ≤ ýapyldy (maksat ≥ 95%).
Pager Fatigue : p95 alert/adam ≤ maksatly; > p90 wagtynda duýduryş.
Fair-Share Index = 1 − (σ gije/ target_nochey). Maksat ≥ 0. 8.
Auto-Fix Rate ≥ çärýekde L1 üçin 40% (maksat kämillik derejesine baglydyr).
Runbook Usage ≥ gaýtalanýan alertler üçin 70% (ilkinji 10 signal).
MTTA/MTTR we Defect Rate üçin gözegçilik kartlary (X-MR, p-charts); gözegçilik çäklerinden çykanda alertler.
7) Seljeriş usullary
Anomaliýalar: Alertler we MTTA/MTTR boýunça STL/ESD/CUSUM, daşarky we sebäpleri belläň (goýberiň, üpjün ediji).
Ýüküň çaklamasy: Alertler boýunça Prophet/ARIMA we P1/P2 → FTE meýilnamalaşdyryş.
Netijäniň atributiýasy: prosesleriň üýtgemeginiň uplift modeli (mysal üçin, täze hendower şablony) → MTTR.
Gözegçilik synaglary: Içerki proseslerde A/B (çek sanawynyň görnüşi, täze runbook).
Kogort derňewi: täze başlanlaryň öndürijiligi (shadow → solo) vs. tejribeli.
8) Integrasiýa
Waka-bot: çalşyk metrikleriniň ýazgysy, ýapyk hendoweri ýada salýar, retro başlaýar.
Release-portal: reliz penjirelerini ýüküň iň ýokary derejesi bilen baglanyşdyrýar; gyzyl SLO-larda awto-pause.
Metrics API: RCA üçin taýýar SLO-view + exemplars (trace_id).
HR/PTO: siňdiriş faktorlary (shrinkage) → fair-share meýilnamalaşdyrmak we seljermek.
9) Syýasatlar we RACI
Ops Analytics Owner (SRE/Platform): maglumatlaryň modeli, dashbordlar, metrikleriň takyklygy.
Service Owners: domen signallaryny düşündirmek, gowulaşdyrmak meýilnamalary.
Duty Manager: KPI/KRI hepdelik seljermesi, slot balansy.
Compliance/Sec: Telemetriýada we hasabatlarda PII/SoD-ni berjaý etmek.
Training Lead: analitikanyň netijelerinden onbording meýilnamalary.
10) Artefaktlaryň şablonlary
10. 1 Metrik katalog (YAML)
yaml apiVersion: ops.analytics/v1 kind: MetricCatalog items:
- id: coverage_rate owner: "SRE"
formula: "covered_hours / 168"
slice: ["region","slot","domain"]
target: ">=0.99"
- id: mtta_p50 owner: "Ops"
formula: "median(ack_ts - alert_ts)"
slice: ["slot","severity","domain"]
target: "<=5m (P1)"
- id: handover_defect_rate owner: "Ops"
formula: "defects / handovers"
target: "<=5%"
- id: pager_fatigue_p95 owner: "SRE"
formula: "p95(alerts_per_person_week)"
target: "<=team_threshold"
10. 2 Soragyň mysaly (SQL-agregat)
sql
SELECT slot, domain,
percentile_cont(0.5) WITHIN GROUP (ORDER BY ack_s-emit_s) AS mtta_p50,
percentile_cont(0.9) WITHIN GROUP (ORDER BY ack_s-emit_s) AS mtta_p90,
AVG(auto_fix)::float AS autofix_rate
FROM alerts_fact
WHERE ts BETWEEN:from AND:to AND severity IN ('P1','P2')
GROUP BY slot, domain;
10. 3 Hendower çek-sanawy (hil signallary)
SLO/SLI gysgaça maglumat goşuldy
Açyk hadysalaryň eýeleri bar/ETA
Meýilleşdirilen işler/goýberişler birikdirildi
Üpjün ediji töwekgelçilikleri hasaba alyndy
Komm-taslamalar taýýar
On-call aragatnaşyklary aktual
Watchlist täzelendi
11) Töwekgelçilikleri we gowulaşmalary dolandyrmak
KRI: DLQ/queue-lag gijeki slot, FCR <maksat, Info Drift.
Gowulaşmalar meýilnamasy: Eýeler/ETA bilen ilkinji 3 şowsuzlyga hepdelik Ops-meýilnama.
Çalşyk düzgün-nyzamynyň post-mortemi: hendowerleriň kemçilikleri we alertleriň flappingi boýunça retro.
Prosessual A/B: täze düzgünleriň MTTR/Auto-Fix-e täsirini barlamak.
12) KPI/OKR mysallar (çärýek)
KR1: MTTR P1 (mediana) ↓ 22 minutdan 15 minuta çenli.
KR2: Handover SLA ≥ üç slotda 95%.
KR3: Auto-Fix Rate ≥ iň gowy 10 signal düzgüni üçin 45%.
KR4: Pager Fatigue p95 ↓ 20% -e (alerting optimizirlenenden soň).
KR5: Fair-Share Index ≥ 0. Ähli toparlarda 85.
13) Durmuşa geçirmegiň ýol kartasy (6-10 hepde)
Ned. 1-2: wakalaryň shemalary, botdan ETL/ITSM/Metrics API, metrikleriň ilkinji katalogy, esasy daşbordlar.
Ned. 3-4: gözegçilik kartoçkalary we bosagalar, fatigue-panel, handover-hil, relizler bilen baglanyşyk.
Ned. 5-6: ýüküň çaklamasy (slotlar/domenler), fair-share we replacement-analitika.
Ned. 7-8: awto-maslahatlar (haýsy runbooks awtomatlaşdyrmaly), awto-fiksleriň ROI hasabatlary, retro şablonlar.
Ned. 9-10: synaglar (A/B çek sahypalary), Exec panellerinde KPI, toparlary taýýarlamak.
14) Antipatternler
"Çalşygyň üstüni" diňe ýapyk biletleriň sany boýunça hasaplamak (MTTR/SLO-kontekstsiz).
Hendower kemçiliklerine üns bermezlik ("eýýäm düşnükli").
Traffigiň mukdary/möwsümleýin iň ýokary derejesi boýunça kadalaşmazdan metrikler.
Çylşyrymlylygy/giriş şertlerini hasaba almazdan şahsylaşdyrmak we "adamlaryň reýtingleri".
Fair-share → ýadawlyk we ýalňyşlyklaryň köpelmegi.
Relizler/synaglar bilen baglanyşyk ýok → ýalan netijeler.
WORM-auditsiz we PII syýasaty bolmazdan maglumatlar.
Jemi
Çalşyk we öndürijilik seljermesi - bu ChatOps, ITSM we telemetriýanyň üstünde önümçilik ölçeg ulgamy: KPI/KRI takonomiýasy, maglumatlaryň dogry modelleri, dürli rollar üçin daşbordlar, statistik usullar we SLO/iş täsiri bilen baglanyşyk. Bu çemeleşme ýükleri deňleşdirýär, reaksiýany çaltlaşdyrýar, ýadawlygy azaldýar we iGaming platformasynyň amallarynyň hilini ýokarlandyrýar.