Shift ve performans analizi
1) Amaç ve değer
Shift Analytics, 7 × 24 operasyonların yönetimini öngörülebilir kılan bir ölçüm sistemidir: SLO kapsamını onaylar, darboğazları (gece yuvaları, sıkışık alanlar) tanımlar, tükenmişliği önler ve devir işlemlerinin kalitesini artırır. IGaming için, bu doğrudan mevduat/yerleşimlerin hızını, KYC/AML teslim tarihlerini ve itibarını etkiler.
2) Metriklerin taksonomisi
2. 1 Kapsama ve hazır olma
Kapsama Oranı - tam kompozisyon ile % saat (rol/etki alanı/bölgeye göre).
On-Call Hazırlık - atanmış IC/CL ve geçerli kişiler ile vardiya oranı.
Devir SLA - transfer penceresi (10-15 dakika) ve kontrol listesine uygunluk.
2. 2 Reaksiyon ve azalma oranı
MTTA/MTTR (Gündüz/Salıncak/Gece yuvalarına göre, etki alanına göre): medyan, p90.
Algılama Kurşun - SLI bozulması ve ilk eylem arasında bir gecikme.
Yayın Sonrası İzleme Süresi - Sürümün gerçek izlenmesi.
2. 3 Vardiya transferinin kalitesi
Devir Hatası Oranı - boş kontrol listesi öğeleri.
Info Drift - var-room, ITSM ve durum kanalı arasındaki gerçeklerin tutarsızlığı.
Action Carryover - sahibi/ETA'sı olmadan "taşınan" görevlerin oranı.
2. 4 Yük ve yorgunluk
Çağrı Cihazı Yorgunluğu: uyarı/kişi/hafta, gece sayfaları, P1/person/shift.
Eskalasyon Yoğunluğu: L2/L3 ulaşan olayların oranı (runbook düzeltmelerine karşı L1).
Boşta ve Meşgul Oranı: Bekleyen canlı yükleme süresine karşı.
2. 5 Verimlilik ve otomasyon
Auto-Fix Rate - otomatik eylemler/bot tarafından çözülen olaylar.
Runbook Kullanımı - Standart senaryolara göre kapatılan uyarıların yüzdesi.
İlk Temas Çözünürlüğü (FCR) - Tırmanma olmadan L1 seviyesinde kapatın.
Olaylar Arasındaki Ortalama Süre (MTBI) - domain/slot kararlılığı.
2. 6 Adalet ve Sürdürülebilirlik
Adil Paylaşım Endeksi - insanlar tarafından gecelerin/hafta sonlarının eşitliği.
Yedek SLA - değiştirmeler vardiyadan ≥48 saat önce onaylandı.
Eğitim Kapsamı - onboarding için bir gölge yuvası ile vardiya paylaşımı.
2. 7 İş bağlantısı
SLO Etki Puanı - Vardiya ne kadar süre SLO'yu yeşil renkte tuttu?
Risk Altındaki Gelir (proxy) - vardiya P1/P2 kayıp gelirin tahmini.
İş Ortağı Gecikmesi/Düşüşü - PSP/KYC ortaklarının olayları değiştirmeye katkısı.
3) Veri modeli
3. 1 Olayların taneleri
shift_event: başlangıç/bitiş, kompozisyon, roller (IC/CL/L1/L2), bölge, etki alanları.
alert_event: signal, priority, owner, closing, runbook/auto-action.
incident_event: P1-P4, zaman çizelgeleri, IC/CL, durum yayınları.
handover_check: denetim listesi işaretleri + kusurlar/yorumlar.
release_watch: gözlem pencereleri, kapılar, otomatik geri dönüşler.
Çalışma günlüğü: üretken dakikalar (teşhis, düzeltmeler, virgül güncellemeleri, ölüm sonrası).
fatigue_signal: sayfaların/gecelerin sıklığı, çalışılan saatler.
3. 2 Diyagram (basitleştirilmiş)
Ключи: 'zaman damgası', 'kiracı', 'bölge', 'çevre', 'alan', 'rol', 'önem'.
Depolama seçenekleri: olay gölü (parke/buzdağı) + DWH/TSDB'deki ön agregalar.
PII politikası: Yalnızca toplamalar ve takma adlar; E-posta/kimlik maskelenir.
4) Veri toplama (ETL)
1. ChatOps/bot:'/over ','/incident','/runbook 'komutları> WORM dergisi.
2. ITSM: olay/bilet durumları, var odalarına bağlanma.
3. Metrikler API: SLI/SLO (auth-succcess, bet _ settle p99, error-rate), KRI (queue lag, PSP reducts).
4. Shift planlayıcısı: takvimler, değiştirmeler, roller, gölge.
5. CI/CD: sürümler, gözlem pencereleri, otomatik geri dönüşler.
ETL normalleştirir, 'shift _ slot' ekler (Day/Swing/Night), türetilmiş metrikleri hesaplar (MTTA/MTTR, Fair-Share).
5) Gösterge panoları
5. 1 Exec (haftalık/aylık inceleme)
CFR, MTTR, Otomatik Düzeltme Oranı, SLO Etkisi, Risk Altındaki Gelir (proxy).
Yuva ve etki alanı aşırı yük haritası (termal).
5. 2 Ops/SRE (her vardiya/günlük)
Gerçek zamanlı panel: açık P1-P4, yanma oranı, kuyruklar/çoğaltma, korkuluklar.
Kontrol listesi durumunun ve kusurlarının teslim kartı.
Yorgunluk paneli: sayfalar/insanlar, geceler/insanlar (son 4 hafta), uyarılar.
5. 3 Takım/Domain
MTTA/MTTR etki alanına göre, FCR, Runbook Kullanımı, L2/L3 yükselmelerin paylaşımı.
Belirli bir ekip için Adil Paylaşım ve Değiştirme SLA'sı.
6) Formüller ve eşikler
Kapsama Oranı = Kapsanan Watch/168. Hedef %99 ≥.
Devir SLA'sı = % aktarımın tamamlandığı ve kontrol listesinin 15 dakika ≤ kapatıldığı yerlerde kayar (hedef ≥ %95).
Çağrı Cihazı Yorgunluğu (wk): p95 uyarısı/kişi ≤ hedef; Uyarı> p90.
Adil Paylaşım Endeksi = 1 − (σ gece/ target_nochey). Hedef ≥ 0. 8.
Otomatik Düzeltme Oranı ≥ Çeyrek başına L1 için %40 (hedef olgunluğa bağlıdır).
Runbook Kullanımı ≥ Tekrarlanan uyarılar için %70 (en iyi 10 sinyal).
MTTA/MTTR ve Kusur Oranı için kontrol kartları (X-MR, p-charts); Kontrol sınırlarının ötesine geçerken uyarı verir.
7) Analitik yöntemler
Anomaliler: Uyarı ve MTTA/MTTR tarafından STL/ESD/CUSUM, sınırları ve nedenleri işaretler (serbest bırakma, sağlayıcı).
Yük tahmini: Prophet/ARIMA uyarıya göre ve yuva başına P1/P2 - FTE zamanlama.
Sonuç ilişkilendirme: Süreçlerdeki değişikliklerin yükseltme modeli (örneğin, yeni bir devir teslim şablonu) - MTTR.
Kontrol deneyleri: Dahili süreçlerde A/B (kontrol listesinin sürümü, yeni çalışma kitabı).
Kohort analizi: Yeni gelenlerin performansı (gölge - solo) vs. Deneyimli.
8) Entegrasyonlar
Olay botu: gönderiler metrikleri değiştirir, kapatılmamış bir devir teslimi hatırlatır, retro başlar.
Release-portal: Yük zirveleri ile serbest bırakma pencerelerini bağlar; Kırmızı SLO'larda otomatik duraklatma.
Metrics API: RCA için hazır SLO-view + örnekleri (trace_id).
İK/PTO: büzülme faktörleri - adil paylaşım planlaması ve analizi.
9) Politikacılar ve RACI
Ops Analytics Sahibi (SRE/Platform): veri modeli, gösterge panoları, metrik doğruluk.
Servis Sahipleri: etki alanı sinyallerinin yorumlanması, iyileştirme planları.
Görev Yöneticisi: Haftalık KPI/KRI analizi, yuva dengesi.
Uyumluluk/Sec: Telemetri ve raporlamada PII/SoD ile uyumluluk.
Eğitim Liderliği: Analitik bulgulardan onboarding planları.
10) Eser desenleri
10. 1 Metrik Katalog (YAML)
yaml apiVersion: ops.analytics/v1 kind: MetricCatalog items:
- id: coverage_rate owner: "SRE"
formula: "covered_hours / 168"
slice: ["region","slot","domain"]
target: ">=0.99"
- id: mtta_p50 owner: "Ops"
formula: "median(ack_ts - alert_ts)"
slice: ["slot","severity","domain"]
target: "<=5m (P1)"
- id: handover_defect_rate owner: "Ops"
formula: "defects / handovers"
target: "<=5%"
- id: pager_fatigue_p95 owner: "SRE"
formula: "p95(alerts_per_person_week)"
target: "<=team_threshold"
10. 2 Sorgu örneği (SQL toplu)
sql
SELECT slot, domain,
percentile_cont(0.5) WITHIN GROUP (ORDER BY ack_s-emit_s) AS mtta_p50,
percentile_cont(0.9) WITHIN GROUP (ORDER BY ack_s-emit_s) AS mtta_p90,
AVG(auto_fix)::float AS autofix_rate
FROM alerts_fact
WHERE ts BETWEEN:from AND:to AND severity IN ('P1','P2')
GROUP BY slot, domain;
10. 3 Devir teslim kontrol listesi (kalite sinyalleri)
SLO/SLI Özeti ekli
Açık olayların sahipleri/ETA'sı var
Planlanan işler/sürümler bağlı
Tedarikçi riskleri sabit
Comm taslakları hazır
Çağrı üzerine kişiler önemlidir
İzleme listesi güncellendi
11) Risk ve İyileştirme Yönetimi
KRI: DLQ/queue-lag growth per night slot, FCR drop <target, Info Drift spike.
İyileştirme Planı: İlk 3 Flop'ta Sahipler/ETA ile Haftalık Ops Planı.
Ölüm sonrası disiplin değişimleri: Devir kusurları ve uyarı çırpma üzerine retro.
Süreç A/B: Yeni düzenlemelerin MTTR/Otomatik Düzeltme üzerindeki etkisini kontrol etmek.
12) KPI/OKR örnekleri (çeyrek)
KR1: MTTR P1 (medyan) ↓ 22 dakikadan 15 dakikaya kadar.
KR2: Devir SLA ≥ Üç yuvada %95.
KR3: Otomatik Sabitleme Oranı ≥ En iyi 10 sinyal kuralı için %45.
KR4: Çağrı Cihazı Yorgunluğu p95 %20 ↓ (uyarı optimizasyonundan sonra).
KR5: Adil Paylaşım Endeksi ≥ 0. Tüm takımlarda 85.
13) Uygulama Yol Haritası (6-10 hafta)
Ned. 1-2: olay şemaları, bot/ITSM/Metrics API'den ETL, ilk metrik kataloğu, temel gösterge tabloları.
Ned. 3-4: kontrol kartları ve eşikler, yorulma paneli, devir kalitesi, sürümleri ile paket.
Ned. 5-6: yük tahmini (slotlar/etki alanları), adil paylaşım ve değiştirme analitiği.
Ned. 7-8: otomatik ipuçları (otomatikleştirilecek çalışma kitapları), otomatik düzeltme ROI raporları, retro şablonlar.
Ned. 9-10: süreçlerde deneyler (A/B kontrol listeleri), Exec panellerinde KPI'lar, eğitim ekipleri.
14) Antipatterns
"Vardiya başarısı'nı yalnızca kapalı bilet sayısına göre düşünün (MTTR/SLO bağlamı olmadan).
Devir kusurlarını görmezden gelin ('ve çok anlaşılabilir ").
Trafik hacmi/mevsimsel zirvelere göre normalize edilmemiş metrikler.
Karmaşıklık/girdi koşullarını dikkate almadan kişileştirme ve "kişi derecelendirmeleri".
Adil paylaşım eksikliği - tükenmişlik ve artan hatalar.
Bültenler/deneyler ile sıfır korelasyon - yanlış sonuçlar.
WORM denetimi ve PII politikası olmayan veriler.
Sonuç
Shift ve performans analizi, ChatOps, ITSM ve telemetrinin üstünde bir üretim ölçüm sistemidir: KPI/KRI taksonomisini, doğru veri modellerini, farklı roller için gösterge tablolarını, istatistiksel yöntemleri ve SLO/iş etkisine bağlantıyı temizleyin. Bu yaklaşım, yükleri dengeler, yanıtı hızlandırır, tükenmişliği azaltır ve tahmin edilebilir bir şekilde iGaming platform operasyonlarının kalitesini artırır.