Smena va unumdorlik tahlili
1) Maqsad va qadriyat
Smena tahlili - bu 24 × 7 operatsiyalarni boshqarishni oldindan aytib bo’ladigan o’lchash tizimi: SLO qoplamasini tasdiqlaydi, tor joylarni (tungi slotlar, haddan tashqari yuklangan domenlar) aniqlaydi, yonib ketishning oldini oladi va hendoverlar sifatini oshiradi. iGaming uchun bu to’g’ridan-to’g’ri depozitlar/settllarning tezligiga, KYC/AML muddatlari va obro’siga ta’sir qiladi.
2) Metriklarning taksonomiyasi
2. 1 Qoplash va tayyorlik
Coverage Rate - to’liq tarkibli soatlar (rol/domen/mintaqa bo’yicha).
On-Call Readiness - belgilangan IC/CL va valid kontaktlari bilan smenalar ulushi.
Handover SLA - uzatish oynasi (10-15 daqiqa) va chek varaqasiga rioya qilish.
2. 2 Reaksiya va tiklanish tezligi
MTTA/MTTR (Day/Swing/Night slotlari bo’yicha, domenlar bo’yicha): mediana, p90.
Detection Lead - SLI degradatsiyasi va birinchi harakat orasidagi lag.
Post-Release Monitoring Time - relizni haqiqiy kuzatish.
2. 3 Smenani uzatish sifati
Handover Defect Rate - chek-varaqning to’ldirilmagan bandlari.
Info Drift - varrum, ITSM va status-kanal o’rtasidagi tafovut.
Action Carryover - egasiz/ETAsiz «ko’chib o’tgan» vazifalar ulushi.
2. 4 Yuk va charchoq
Pager Fatigue: alertov/kishi/hafta, tungi peyjlar, P1/kishi/smena.
Escalation Density: L2/L3 yetib kelgan hodisalar ulushi (L1 runbook-fikslariga qarshi).
Idle vs. Busy Ratio: samarali yuklash vaqti vs. kutish.
2. 5 Samaradorlik va avtomatlashtirish
Auto-Fix Rate - avtomashinalar/bot bilan hal qilingan hodisalar.
Runbook Usage - standart stsenariylarda yopilgan alertlar%.
First Contact Resolution (FCR) - L1 darajasida eskalatsiyasiz yopish.
Mean Time Between Incidents (MTBI) - domen/slot barqarorligi.
2. 6 Adolat va barqarorlik
Fair-Share Index - odamlar bo’yicha tunlar/dam olish kunlarining bir tekisligi.
Replacement SLA - smenaga 48 soat ≥ tasdiqlangan almashtirishlar.
Training Coverage - onbording uchun shadow-slotli smenalar ulushi.
2. 7 Biznes-aloqa
SLO Impact Score - SLOni yashil maydonda qancha vaqt ushlab turdi.
Revenue at Risk (proxy) - smenadagi P1/P2 yo’qotilgan tushumni baholash.
Partner Latency/Declines - smena hodisalariga PSP/KYC hamkorlarining hissasi.
3) Ma’lumotlar modeli
3. 1 Voqea doni
shift_event: boshlanishi/oxiri, tarkibi, rollari (IC/CL/L1/L2), mintaqasi, domenlari.
alert_event: signal, ustuvorlik, egasi, yopish, runbook/avtomatik yordam.
incident_event: P1-P4, taymlaynlar, IC/CL, maqom-nashrlar.
handover_check: chek-varaq belgilari + nuqsonlar/sharhlar.
release_watch: kuzatuv oynalari, geytlar, avto-qaytishlar.
worklog: mahsuldor daqiqalar (diagnostika, fikslar, komm-apdeytlar, post-mortem).
fatigue_signal: payj/tun chastotasi, ishlagan soatlar.
3. 2 Sxema (soddalashtirilgan)
Ключи: `timestamp`, `tenant`, `region`, `environment`, `domain`, `role`, `severity`.
Saqlash variantlari: hodisa lake (parquet/iceberg) + DWH/TSDB pre-agregatlari.
PII siyosati: faqat agregatlar va taxalluslar; e-mail/ID yashiriladi.
4) Ma’lumotlarni yig’ish (ETL)
1. ChatOps/bot: ’/handover’, ’/incident’, ’/runbook’→ WORM jurnali.
2. ITSM: hodisalar/biletlar maqomi, varrumlar bilan bog’lanish.
3. Metrics API: SLI/SLO (auth-success, bet→settle p99, error-rate), KRI (queue lag, PSP declines).
4. Smenalarni rejalashtirish: taqvimlar, almashtirishlar, rollar, shadow.
5. CI/CD: relizlar, kuzatuv oynalari, avto-qaytishlar.
ETL normallashtiradi,’shift _ slot’(Day/Swing/Night) qoʻshadi, derived-metriklarni (MTTA/MTTR, Fair-Share) hisoblaydi.
5) Dashbordlar
5. 1 Exec (hafta/oy sharhi)
CFR, MTTR, Auto-Fix Rate, SLO Impact, Revenue-at-Risk (proxy).
Slotlar va domenlarni qayta yuklash xaritasi (issiqlik).
5. 2 Ops/SRE (har smenada/har kuni)
Real-taym paneli: ochiq P1-P4, burn-rate, navbatlar/replikatsiyalar, guardrails.
Chek-varaq va nuqsonlar maqomining xendover-kartasi.
Fatigue paneli: peyji/kishi, tunlar/kishi (oxirgi 4 hafta), ogohlantirishlar.
5. 3 Team/Domain
MTTA/MTTR domen boʻyicha, FCR, Runbook Usage, L2/L3 eskalatsiyalar ulushi.
Muayyan buyruq uchun Fair-Share va Replacement SLA.
6) Formulalar va chegaralar
Coverage Rate = qoplangan soat/168. Maqsad ≥ 99%.
Handover SLA =% smena, bu yerda uzatish bajarildi va chek varaqasi 15 daqiqa ≤ yopildi (maqsad ≥ 95%).
Pager Fatigue : p95 alert/kishi ≤ maqsadli; > p90 da ogohlantirish.
Fair-Share Index = 1 − (σ kecha/ target_nochey). Maqsad ≥ 0. 8.
Auto-Fix Rate ≥ har chorakda L1 uchun 40% (maqsad yetuklikka bog’liq).
Runbook Usage ≥ takrorlanuvchi alertlar uchun 70% (eng yaxshi 10 ta signal).
MTTA/MTTR va Defect Rate uchun nazorat kartalari (X-MR, p-charts); nazorat doirasidan chiqishdagi alertlar.
7) Tahliliy usullar
Anomaliyalar: Alertlar va MTTA/MTTR bo’yicha STL/ESD/CUSUM, autlayerlar va sabablarni belgilash (reliz, provayder).
Yuklamani prognozlash: Alertlar va P1/P2 bo’yicha Prophet/ARIMA → FTEni rejalashtirish.
Natijaning atributiyasi: jarayondagi oʻzgarishlarning uplift modeli (masalan, yangi xendover-shablon) → MTTR.
Nazorat tajribalari: Ichki jarayonlarda A/B (chek varaqasi, yangi runbook).
Kogort tahlili: yangi boshlanuvchilar (shadow → solo) va tajribali.
8) Integratsiya
Hodisa-bot: smena metrikalari, yopilmagan hendoverni eslatadi, retro boshlanadi.
Release-portal: reliz oynalarini yuklama cho’qqilari bilan bog’laydi; qizil SLOlarda auto-pause.
Metrics API: RCA uchun tayyor SLO-viu + exemplars (trace_id).
HR/PTO: qisqarish omillari (shrinkage) → rejalashtirish va tahlil qilish fair-share.
9) Siyosat va RACI
Ops Analytics Owner (SRE/Platform): maʼlumotlar modeli, dashbordlar, metrik aniqlik.
Service Owners: domen signallarini talqin qilish, yaxshilash rejalari.
Duty Manager: haftalik KPI/KRI tahlili, slot balansi.
Compliance/Sec: telemetriya va hisobotlarda PII/SoD ga rioya qilish.
Training Lead: tahliliy xulosalardan onbording rejalari.
10) Artefaktlar shablonlari
10. 1 Metrik katalog (YAML)
yaml apiVersion: ops.analytics/v1 kind: MetricCatalog items:
- id: coverage_rate owner: "SRE"
formula: "covered_hours / 168"
slice: ["region","slot","domain"]
target: ">=0.99"
- id: mtta_p50 owner: "Ops"
formula: "median(ack_ts - alert_ts)"
slice: ["slot","severity","domain"]
target: "<=5m (P1)"
- id: handover_defect_rate owner: "Ops"
formula: "defects / handovers"
target: "<=5%"
- id: pager_fatigue_p95 owner: "SRE"
formula: "p95(alerts_per_person_week)"
target: "<=team_threshold"
10. 2 So’rov namunasi (SQL-agregat)
sql
SELECT slot, domain,
percentile_cont(0.5) WITHIN GROUP (ORDER BY ack_s-emit_s) AS mtta_p50,
percentile_cont(0.9) WITHIN GROUP (ORDER BY ack_s-emit_s) AS mtta_p90,
AVG(auto_fix)::float AS autofix_rate
FROM alerts_fact
WHERE ts BETWEEN:from AND:to AND severity IN ('P1','P2')
GROUP BY slot, domain;
10. 3 Xendover chek-listi (sifat signallari)
SLO/SLI maʼlumot ilova qilingan
Ochiq hodisalar egalari/ETA
Rejalashtirilgan ishlar/relizlar bogʻlangan
Provayder tavakkalchiliklari qayd etildi
Komm-loyihalar tayyor
On-call aloqalari dolzarb
Watchlist yangilandi
11) Tavakkalchiliklar va yaxshilanishlarni boshqarish
KRI: DLQ/queue-lag’ning tungi slotga ko’tarilishi, FCR’ning maqsadli yiqilishi, Info Drift’ning ko’tarilishi.
Yaxshilash rejasi: egalari bilan haftalik Ops-reja/ETA eng yaxshi 3 ta muvaffaqiyatsizlikka.
Smena intizomining post-mortemi: hendoverlarning nuqsonlari va alertlarning flappinglari bo’yicha retro.
Protsessual A/B: yangi reglamentlarning MTTR/Auto-Fix ga ta’sirini tekshirish.
12) KPI/OKR misollari (chorak)
KR1: MTTR P1 (mediana) ↓ 22 daqiqadan 15 daqiqagacha.
KR2: Handover SLA ≥ 95% uchta slotda.
KR3: Auto-Fix Rate ≥ eng yaxshi 10 ta signal qoidalari uchun 45%.
KR4: Pager Fatigue p95 ↓ 20% ga (alerting optimallashtirilgandan keyin).
KR5: Fair-Share Index ≥ 0. Barcha jamoalarda 85 ta.
13) Joriy etish yo’l xaritasi (6-10 hafta)
Ned. 1-2: voqealar sxemalari, botdagi ETL/ITSM/Metrics API, metriklarning birinchi katalogi, bazaviy dashbordlar.
Ned. 3-4: nazorat kartalari va ostonalar, fatigue-panel, handover-sifat, relizlar bilan bog’lanish.
Ned. 5-6: yuklamani prognozlash (slotlar/domenlar), fair-share va replacement-analitika.
Ned. 7-8: avto-maslahatlar (qanday runbooks avtomatlashtirish), avto-fikslarning ROI hisobotlari, retro-shablonlar.
Ned. 9-10: eksperimentlar (A/B chek-varaqlar), Exec-panellarda KPI, jamoalarni o’qitish.
14) Antipatternlar
Faqat yopiq chiptalar soni bo’yicha «smena muvaffaqiyati» deb hisoblansin (MTTR/SLO kontekstisiz).
Hendover nuqsonlariga e’tibor bermaslik («tushunarli»).
Traffik hajmi/mavsumiy cho’qqilari bo’yicha normallashmagan metriklar.
Murakkablik/kirish sharoitlarini hisobga olmagan holda shaxslashtirish va «odamlar reytinglari».
fair-share → yo’qligi va xatolarning ko’payishi.
Reliz/eksperimentlar bilan nol korrelyatsiya → noto’g’ri xulosalar.
WORM auditsiz va PII siyosatsiz ma’lumotlar.
Jami
Smena va unumdorlik tahlili - bu ChatOps, ITSM va telemetriya ustidan o’lchashning ishlab chiqarish tizimi: KPI/KRI aniq taksonomiyasi, to’g’ri ma’lumotlar modellari, turli rollar uchun dashbordlar, statistik usullar va SLO/biznes effekti bilan aloqa. Bunday yondashuv yukni tenglashtiradi, reaktsiyani tezlashtiradi, charchashni kamaytiradi va iGaming platformasi operatsiyalari sifatini yaxshilaydi.