GH GambleHub

Ödemeler/Bahislerde SLO-burn uyarıları

Operasyonel Yol Haritası

1) Neden ihtiyacınız var

Operasyonel yol haritası (Ops Yol Haritası), SRE/platform/destek ve etki alanı ekiplerinin farklı görevlerini şeffaf bir plana dönüştürür: Her çeyrekte elde edeceğimiz SLO/maliyet/olaylar üzerinde ne gibi bir etki ve ne pahasına (insanlar, zaman, bütçe). Bu, kaosu azaltır, teknik borcu düzene sokar ve işletmelere değer verilmesini hızlandırır.

Hedefler:
  • Ölçülebilir sonuçlar etrafında girişimleri birleştirin (SLO, MTTR, Maliyet/RPS, Risk).
  • Platform, etki alanları ve dış sağlayıcılar arasındaki öncelikler üzerinde anlaşın.
  • Bütçe kaynakları ve'ne yapmadığımızı "düzeltin (açık takaslar).
  • Uygulama ve riskler hakkında tek bir gerçeği saklayın.

2) Yol haritası ilkeleri

1. Her girişim bir sonuç metriğine bağlıdır ("X'i uygulamak'değil," MTTR'yi %20 azaltmak ").
2. SLO-farkında: Kritik yolların SLO'larını (depozito/bahis/oyunlar/CCL) etkileyen girişimler öncelikli olarak daha yüksektir.
3. Veri odaklı: olaylara, post-mortemlere, uyarılara, Capacity/FinOps panellerine dayanır.
4. Zaman kutulu ve geri dönüşümlü: küçük artışlar, hipotez testi, hızlı geri dönüş.
5. Tek bir hakikat kaynağı: tek bir eser, düzenli incelemeler ve kamu durumları.
6. Gizli iş yok: harita dışında - sadece yönetmeliklere göre "ateşler".

3) Yol haritası çerçevesi: seviyeler ve eserler

Vizyon (12-18 ay): 3-5 operasyonel konu (Güvenilirlik, Ölçek, Maliyet, Güvenlik, Otomasyon).
Sütunlar (6-12 ay): Konuya göre girişim blokları (örn. "%100 kritik yolların SLO kapsamı", "2 bölgede Aktif-Aktif").
Üç aylık plan (Q): metrikleri, sahipleri, bağımlılıkları, bütçesi olan belirli girişimler.
Yinelemeler (2-3 hafta): görevler/destanlar ve gerçek ilerleme.

Girişim mini yapısı:

ID: OPS-23

4) Prioritization: How to compare the incomparable

4. 1 RICE (Reach, Impact, Confidence, Effort)

Reach: affected users/transactions/geo.
Impact: expected contribution to SLO/MTTR/Cost.
Confidence: Confidence in estimates (data/pilots).
Effort: man-weeks/calendar window/dependencies.

4. 2 WSJF (Scaled)

Cost of Delay = (SLO Risk + Revenue Impact + Compliance + Incident Rate)
/ Job Size = duration/force.
Suitable for mixed initiatives (technical debt, security, platform features).

The rule: initiatives with high SLO risk and high cost of delay come first, even if the effect is "invisible" on UI.

5) Relationship with OKR, SLO and incidents

Platform-level OKR:
KR1: "Reduce Change Failure Rate from 18% to 12% by the end of Q2."
KR2: "Increase Pre-Incident Detect Rate from 35% to 60%."
SLO-matrix: for each domain - target p95/p99/Success Rate/Availability.
Incident analytics: the top 3 reasons for the last quarter should have counteraction initiatives in the current one.

6) Resource and budget planning

FTE-matrix: by squads and competencies (SRE, Observability, Data, Integrations).
Provider calendar: maintenance/quota windows (impact on dates).
CapEx/OpEx: licenses/cluster extensions vs command hours.
Buffer: ~ 15-20% for unplanned "fires" and regulatory tasks.
What-don't-do policy: A list of rescheduled/postponed initiatives with reasons.

7) Managing dependencies and risks

Dependency map: who blocks whom (service/provider/data/command).
Risk register: risk, probability/impact, owner, mitigation plan/plan B.
Change freeze: periods of prohibition of major changes (prime time events/tournaments).
Ficheflags/canaries: Mandatory for initiatives affecting traffic.

8) Quarterly cycle (rhythms)

Q-0 (preparation, 2 weeks): data collection (SLO, incidents, costs), revision of topics, preliminary prioritization.
Q planning: protection of initiatives by owners, reconciliation of resources/risks, fixing the Q plan and "not doing" the list.
Weekly sync: status, blockers, adjustments; maximum 30 minutes.
Monthly review: checking effects on metrics, possible re-scope.
Q retro: compare plan/fact, update principles/patterns.

9) Roadmap view formats

Outcome View: grouped by purpose (SLO, Cost, Risk).
Domain View: Payments/Bets/Games/KYC/Platform.
Timeline View: quarterly, with dependency and frieze markers.
Budget View: FTE/CapEx/OpEx by Initiative and Topic.

Example of a quarterly slice (summary):
Initiative     Outcome              Metrics     Term     Owner     Risk
--------------------      -----------------------      --------------------      -----      -------------      -------
Active-Active Games     RTO≤5 min     Availability 99. 95%      Q1–Q2      platform-sre      High
SLO-burn на Payments     − 30% of late incidents     Pre-Incident↑, MTTR↓      Q1       observability      Average
Kafka Lag Guardrails     − 50% of lag storms     Lag p95↓, DLQ↑         Q1       streaming        Average
FinOps Right-sizing      −15% cost/RPS           Cost/RPS↓           Q2       finops         Low

10) Roadmap Success Metrics (KPIs)

Delivery Predictability: percentage of initiatives completed on time (target ≥ 80%).
SLO Coverage:% of critical paths with active SLOs/alerts.
Incident Trend: − X% of P1/P2 QoQ incidents
Change Failure Rate: Target decline by quarter.
Cost Efficiency: Cost/RPS, Cost/transaction - downward trend.
Risk Burn-down: the number of "red" risks and their total weight.
Stakeholder NPS: satisfaction of domain teams with the quality of the Roadmap.

11) Roadmap launch checklist

[] Defined themes/pillars and 3-5 target outcomes per year.
[] Catalog of initiatives linked to metrics and owners.
[] Prioritization methodology (RICE/WSJF) and scales adopted.
[] Checked resources: FTE, provider windows, budgets.
[] Fixed Q-plan + "not doing."
[] Set up Outcome/Domain/Budget panels, alerts by shifts.
[] Review Schedule: weekly/monthly/quarterly.

12) Anti-patterns

List of tasks without outcomes: "make X" instead of "achieve Y by metric."
Hidden initiatives and private arrangements outside of a single artifact.
Eternal epics: no time-box, no verifiable milestones.
Priority "in terms of volume": resources are spent on the "loudest" request, and not on the most valuable one.
No "what not to do": expectations are unmanageable, trust is falling.
Lack of a link with incidents/SLO: "cosmetic" improvements instead of real ones.

13) Templates (fragments)

Initiative Template (YAML):

yaml id: OPS-42 başlık: "Serbest kanaryalar için korkuluklar"

Tema: "Güvenilirlik"

çeyrek: "2025-Q1"

sahibi: "platform-release"

paydaşlar: ["ödemeler", "bahisler", "oyunlar"]

Sonuç: "Salımlardan sonra regresyonları %40 azaltın"

Metrikler:
  • adı: change_failure_rate hedefi: "<= %12"
  • adı: post_deploy_regression_rate hedefi: "-40 % QoQ"
  • slo_impact: ["api _ p99 <= 300ms @ 99. 9," "kullanılabilirlik> = 99. 95%"]
effort_weeks: 6 pirinç:
  • Erişim: 5000000 # işlemler/QoQ etkisi: 3. 0 güven: 0. 7 çaba: 6 bağımlılık: ["gözlemlenebilirlik-temel", "özellik-bayraklar-çekirdek"]
Riskler:
  • isim: "sahte kapılar"
  • hafifletme: "taban çizgisi/ayarlama, trafiğin %10'u için pilot"
Bütçe: fte: 3 capex: 0 kilometre taşları:
  • adı: tasarım eta: "2025-01-20"
  • isim: pilot-10 %
  • eta: "2025-02-10"
  • isim: sunum-% 100
  • eta: "2025-03-05"

Quarterly report template (Markdown):

Q1 Ops Yol Haritası - Rapor

Sonuç: SLO Kapsamı %92 (+ 7 pp), MTTR − %18, Maliyet/RPS − %9

Tamamlanan: 8/10 girişim (%80)

Vardiyalar: OPS-31 - Q2 (PSP-X bağımlılığı)

Olaylar: P1 = 2 (− 1 QoQ), ana nedenler: sağlayıcı zaman aşımlarında geri çekilmeler

Takipler: ayar kesiciler, yedek kotalar PSP-Y


14) Süreçlerle entegrasyon

Olay Yönetimi: Her ölüm sonrası Yol Haritasında bir girişim/iyileştirme bileti.
Değişiklikler/sürümler: Büyük girişimler yalnızca bayraklar/kanaryalar ile birlikte gelir.
Kapasite/FinOps: Boşluk ve maliyet eğilimleri ile ayda bir kez senkronizasyon.
Güvenlik/uyumluluk: Gereksinimler ve denetimler için üç aylık kontrol noktaları.

15) 30/60/90 (hızlı başlangıç)

30 gün: Olay/metrik tabanı toplayın, konu başlıkları oluşturun, YAML formatında 10-15 girişimi tanımlayın, RICE/WSJF'yi seçin, Q-planını düzeltin.
60 gün: Sonuç/Etki Alanı/Bütçe panellerini başlatın, ilk çeyrek ortası incelemesini yapın, veri önceliklerini ayarlayın.
90 gün: Q-sonuçlarını özetleyin, ilkeleri ve ölçekleri güncelleyin, yıllık sütunları yeniden işaretleyin.

16) İletişim ve Şeffaflık

Paydaşlar için aylık inceleme: 30 dakika, sonuçlara ve risklere odaklanın.
Asenkron güncellemeler: önce/sonra metrikleri olan kısa girişler.
Tek Yol Haritası kanalı: durumlar, değişiklikler, öncelikli kararlar.
Kırmızı kart kuralı: Herhangi bir takım veri ekleyerek öncelikli bir inceleme başlatabilir (SLO/olay/maliyet).

17) SSS

S: Ya her şey "yanıyorsa've Yol Haritasında zaman yoksa?
C: %15-20'lik bir "yangın tamponu've olayların ana nedenlerini kapsayan en az 3 girişimin Q planını ekleyin. Herhangi bir yeni "sıcak" çalışma sadece önceliklerin yeniden birleştirilmesi yoluyla olur.

S: "Görünmez" girişimlerin (gözlemlenebilirlik, otogazlar) değeri nasıl kanıtlanır?
C: Değişim Hatası Oranı, MTTR, Olay Öncesi Algılama Oranı, geri çekilmeler ve "gece sayfaları". "Öncesi/sonrası dinamiklerini göster.

S: Teknik borçla nasıl başa çıkılır?
C: Borç aynı zamanda sonucu olan bir girişimdir: "N sınıfı olayların % − X'i", "− Y % maliyet/RPS", "+ Z pp. SLO Kapsamı". Ölçülebilir bir sonuç olmadan, borç plana girmez.
Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.