GH GambleHub

Operasyonel Analiz

1) Operasyonel analitik nedir ve neden gereklidir?

Operational Analytics (Ops Analytics), gözlemlenebilirlik (metrikler/günlükler/yollar), ITSM (olaylar/sorunlar/değişiklikler), CI/CD (sürümler/yapılandırmalar), sağlayıcılar (PSP/KYC/CDN/Bulut), FinOps (maliyetler) ve iş SLS I (ödemelerin başarısı, Kayıt), karar vermek için tek pencerelere ve panolara dönüştü.

Hedefler:
  • Erken teşhis ve nedenlerin doğru ilişkilendirilmesi yoluyla MTTD/MTTR'yi azaltmak;
  • SLO'ları ve hata bütçelerini kontrol altında tutmak;
  • Bağlantı değişiklikleri - etki (yayınlar/yapılandırmalar - SLI/SLO/şikayetler/maliyetler)
  • Ekiplere ve yönetime self servis analizler verin.

2) Kaynaklar ve kanonik veri katmanı

Telemetri: metrikler (SLI/kaynaklar), günlükler (örnekleme/PII sürümü), yollar (trace_id/span_id, serbest bırakma etiketleri).
ITSM/Olay modülleri: SEV, T0/Detected/Ack/Declared/Mitigated/Recovered zaman damgaları, RCA/CAPA.
CI/CD & Config: sürümler, taahhütler, kanarikler/mavi-yeşil, bayrak durumu, hedef yapılandırmaları.
Sağlayıcılar: Durumlar/SLA'lar, gecikmeler, hata kodları, rota ağırlıkları.
FinOps: etiketler/hesaplar/kiracılar tarafından maliyet, $/birim (1k operalar.) .
DataOps: pencere tazeliği, DQ hataları, soy.

Anahtar ilke, tanımlayıcılar aracılığıyla tek bir korelasyondur: 'hizmet', 'bölge', 'kiracı', 'release _ id', 'change _ id', 'incident _ id', 'sağlayıcı', 'trace _ id'.

3) Tek veri modeli (basitleştirilmiş çerçeve)


dim_service(service_id, owner, tier, slo_targets…)
dim_time(ts, date, hour, tz)
dim_region(region_id, country, cloud)
dim_provider(provider_id, type, sla)
fact_sli(ts, service_id, region_id, tenant, metric, value, target, window)
fact_incident(incident_id, service_id, sev, t0, t_detected, t_ack, t_declared, t_mitigated, t_recovered, root_cause, trigger_id, burn_minutes)
fact_change(change_id, type(code    config    infra), service_id, region_id, started_at, finished_at, canary_pct, outcome(ok    rollback), annotations)
fact_cost(ts, service_id, region_id, tenant, cost_total, cost_per_1k)
fact_provider(ts, provider_id, region_id, metric(latency    error    status), value)
fact_dq(ts, dataset, freshness_min, dq_errors)

4) SLI/SLO ve iş metrikleri

Бизнес -SLI: 'payment _ succcess _ ratio', 'signup _ completion', 'deposit _ latency'.
Тех -SLI: 'availability', 'http _ p95', 'error _ rate', 'queue _ depth'.
SLO katmanı: hedefler + yanma oranı (kısa/uzun pencere), ihlallerin otomatik ek açıklamaları.
Normalleştirme: 1k başarılı işlem/kullanıcı/trafik başına göstergeler.

5) Korelasyonlar ve nedenlerin ilişkilendirilmesi

SLI/SLO ↔ sürümleri/yapılandırmaları: grafikler üzerine ek açıklamalar; Neden ve sonuç raporları (değişim olaylarının oranı; MTTR değişim olayları).
İş SLI ↔ sağlayıcılar: Rotaların ağırlıkları ile gecikme/hatalar, her bir sağlayıcının SLO özlemesine katkısı.
Kapasite/kaynaklar ↔ gecikme süresi - havuzun aşırı ısınması - p95 büyümesi - dönüşüm etkisi.

6) Anormallikler ve tahmin

Anomali algılama: mevsimsellik + yüzdelik eşikler + değişim arama özellikleri (sürümden önce/sonra).
Tahmin: haftalık/mevsimsel yük modelleri, tükenme hatası bütçe tahmini, maliyet tahmini ($/birim).
Gardrails: Yalnızca çekirdek kaynakları (sentetik + RUM + iş SLI) olduğunda uyarır.

7) Vitrinler ve gösterge panoları (referans)

1. Executive 28d: SEV karışımı, medyan MTTR/MTTD, SLO uyumu, $/unit, en önemli nedenler.
2. SRE Ops: SLI/SLO + yazma oranı, Sayfa Fırtınası, İşlem Yapılabilir %, Hata Oranını Değiştir.
3. Değişiklik Etkisi: SLI/SLO/şikayetler, geri dönüşler ve etkileri ↔ yayınlar/yapılandırır.
4. Sağlayıcılar: PSP/KYC/CDN durum hatları, iş SLI üzerindeki etkileri, yanıt süreleri.
5. FinOps: 1k txn başına maliyet, günlükler/çıkış, maliyet anormallikleri, öneriler (örnekleme, depolama).
6. DataOps: pencere tazeliği, DQ hataları, boru hattı SLA'ları, dolgu başarısı.

8) Veri kalitesi ve yönetişim

Etkinlik sözleşmeleri: olaylar/sürümler/SLI'lar için açık şemalar (zorunlu alanlar, tek tip saat dilimleri).
DQ-dama: tamlık, anahtarların benzersizliği, zaman çizelgesi tutarlılığı (t0≤detected≤ack...).
Lineage: panodan kaynağa (izlenebilir).
PII/sırlar: politikaya göre düzenleme/maskeleme; Kanıt için WORM.
SLA tazeliği: Ops ≤ 5 dakika gecikme sergiliyor.

9) Operasyonel analitik olgunluk metrikleri

Kapsam: Vitrinlerdeki ve SLO panolarındaki kritik hizmetlerin %'si (hedef ≥ %95).
Tazelik: 5 dakika ≤ tazeliği ile widget payı (hedef ≥ %95).
İşlem yapılabilirlik: % kontrol panelinden aksiyona geçiş (playbook/SOP/ticket) ≥ %90.
Algılama Kapsamı: Olayların ≥ %85'i otomasyon tarafından tespit edilir.
Atıf Oranı: Doğrulanmış nedeni ve tetikleyicisi olan olayların yüzdesi %90 ≥.
Etki Payını Değiştir: Değişikliklerle ilgili olayların paylaşımı (eğilimi kontrol etme).
Veri Kalitesi: DQ hataları/hafta - QoQ ↓.

10) Süreç: veriden eyleme

1. Toplama - temizleme - vitrinin normalleştirilmesi - (ETL/ELT, ML için özellik katmanı).
2. Matris Algılama/Tahmin - Eskalasyon (IC/P1/P2/İletişim).
3. Eylem: oyun kitabı/SOP, serbest bırakma kapısı, özellik bayrağı, sağlayıcı anahtarı.
4. Kanıt ve AAR/RCA: zaman çizelgesi, grafikler, sürümlere/günlüklere/izlere bağlantılar.
5. CAPA ve ürün çözümleri: yanma dakikalarına ve $ etkisine göre önceliklendirme.

11) Sorgu örnekleri (fikir)

11. 1 Sürümlerin SLO üzerindeki etkisi (24 saat)

sql
SELECT r. change_id,
COUNT(i. incident_id) AS incidents,
SUM(i. burn_minutes) AS burn_total_min,
AVG(CASE WHEN i.root_cause='code' THEN 1 ELSE 0 END) AS code_ratio
FROM fact_change r
LEFT JOIN fact_incident i
ON i.trigger_id = r. change_id
WHERE r. started_at >= NOW() - INTERVAL '24 hours'
GROUP BY 1
ORDER BY burn_total_min DESC;

11. 2 Bölgeye göre sağlayıcılardan gelen sorunların paylaşımı

sql
SELECT region_id, provider_id,
SUM(CASE WHEN root_cause='provider' THEN 1 ELSE 0 END) AS prov_inc,
COUNT() AS all_inc,
100. 0SUM(CASE WHEN root_cause='provider' THEN 1 ELSE 0 END)/COUNT() AS pct
FROM fact_incident
WHERE t0 >= DATE_TRUNC('month', NOW())
GROUP BY 1,2
ORDER BY pct DESC;

11. 3 1k başarılı ödeme başına maliyet

sql
SELECT date(ts) d,
SUM(cost_total)/NULLIF(SUM(success_payments)/1000. 0,0) AS cost_per_1k
FROM fact_cost c
JOIN biz_payments b USING (ts, service_id, region_id, tenant)
GROUP BY d ORDER BY d DESC;

12) Eser desenleri

12. 1 Olay olay diyagramı (JSON, fragman)

json
{
"incident_id": "2025-11-01-042",
"service": "payments-api",
"region": "eu",
"sev": "SEV-1",
"t0": "2025-11-01T12:04:00Z",
"detected": "2025-11-01T12:07:00Z",
"ack": "2025-11-01T12:09:00Z",
"declared": "2025-11-01T12:11:00Z",
"mitigated": "2025-11-01T12:24:00Z",
"recovered": "2025-11-01T12:48:00Z",
"root_cause": "provider",
"trigger_id": "chg-7842",
"burn_minutes": 18
}

12. 2 Metrik katalog (YAML, fragman)

yaml metric: biz. payment_success_ratio owner: team-payments type: sli target: 99. 5 windows: ["5m","1h","6h","28d"]
tags: [tier0, region:eu]
pii: false

12. 3 Yönetici karnesi (bölümler)


1) SEV mix and MTTR/MTTD trends
2) SLO adherence and burn-out risks
3) Change Impact (CFR)
4) Providers: Degradation and switchover
5) FinOps: $/unit, log anomalies/egress
6) CAPAs: Status and Deadlines

13) Araçlar ve mimari desenler

Data Lake + DWH: Telemetri için "ham" katman, çözümler için vitrinler.
Akış işleme: Neredeyse gerçek zamanlı SLI/burn-rate, anomaliler için çevrimiçi özellikler.
Özellik Mağazası: Özelliklerin yeniden kullanımı (kanarya, mevsimsellik, sağlayıcı sinyalleri).
Anlamsal Katman/Metrik Deposu: Tekdüzen Metrik Tanımlar (SLO, MTTR...).
Erişim Denetimi: RBAC/ABAC, kiracılar/bölgeler için satır düzeyinde güvenlik.
Katalog/Lineage: arama, açıklamalar, bağımlılıklar, sahipler.

14) Kontrol listeleri

14. 1 Operasyonel analitiğin başlatılması

  • Onaylı sözlükler SLI/SLO, SEV, nedenler, değişiklik türleri.
  • Olay diyagramları ve tekdüze zaman dilimleri.
  • Telemetri konektörleri, ITSM, CI/CD, sağlayıcılar, faturalandırma.
  • Vitrinler: SLI/SLO, Olaylar, Değişiklikler, Sağlayıcılar, FinOps.
  • Executive/SRE/Change/Providers panoları mevcuttur.
  • Quorum uyarıları ve bastırma bakım pencerelerinde yapılandırılmıştır.

14. 2 Haftalık Ops İnceleme

  • SEV trendleri, MTTR/MTTD, SLO özlüyor, dakikaları yakıyor.
  • Değişim Etkisi ve CFR, geri dönüş durumu.
  • Sağlayıcı olayları ve tepki süreleri.
  • FinOps: $/unit, log anomalileri/çıkış.
  • CAPA durumu, suçluluklar, öncelikler.

15) Anti-desenler

Harekete geçmeden "grafikler duvarı".
Komutlar için farklı metrik tanımları (anlamsal katman yok).
Sürüm/pencere ek açıklamalarının eksikliği - nedenlerin zayıf ilişkilendirilmesi.
P95/p99 yerine orta yönlendirme.
Hacim için normalleşme yoktur - büyük hizmetler'daha kötü görünür ".
Günlüklerde/vitrinlerde PII, retansiyon bozukluğu.
Veriler "durgunlaşır" (gerçek zamanlı widget'lar için> 5-10 dk).

16) Uygulama Yol Haritası (4-8 hafta)

1. Ned. 1: metrik sözlüğü, olay şemaları, kimlik korelasyonu ile ilgili anlaşmalar; SLI/SLO ve ITSM bağlantısı.
2. Ned. 2: Olaylar/Değişiklikler/Sağlayıcılar vitrinler, sürüm ek açıklamaları; Yönetici ve SRE panoları.
3. Ned. 3: FinOps tabakası ($/unit), SLI ile ligament; Nisap ile anomali tespiti.
4. Ned. 4: self servis (semantik katman/metrik mağaza), katalog ve soy.
5. Ned. 5-6: yük/maliyet tahmini, sağlayıcılara raporlar, CAPA vitrini.
6. Ned. 7-8: % ≥95 Tier-0/1 kapsamı, SLA tazeliği ≤5 dakika, düzenli Ops incelemeleri.

17) Alt satır

Operasyonel analitik bir karar makinesidir: metriklerin tekdüze tanımları, taze vitrinler, nedenlerin doğru ilişkilendirilmesi ve oyun kitaplarına ve SOP'lara doğrudan geçişler. Böyle bir sistemde, ekip hızlı bir şekilde sapmaları tespit eder ve açıklar, sürümlerin ve sağlayıcıların etkisini doğru bir şekilde değerlendirir, maliyetleri yönetir ve riski sistematik olarak azaltır - ve kullanıcılar istikrarlı bir hizmet alır.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.