Ödemeler/Bahislerde SLO-burn uyarıları

Operasyonel Yol Haritası

1) Neden ihtiyacınız var

Operasyonel yol haritası (Ops Yol Haritası), SRE/platform/destek ve etki alanı ekiplerinin farklı görevlerini şeffaf bir plana dönüştürür: Her çeyrekte elde edeceğimiz SLO/maliyet/olaylar üzerinde ne gibi bir etki ve ne pahasına (insanlar, zaman, bütçe). Bu, kaosu azaltır, teknik borcu düzene sokar ve işletmelere değer verilmesini hızlandırır.

Hedefler:

Ölçülebilir sonuçlar etrafında girişimleri birleştirin (SLO, MTTR, Maliyet/RPS, Risk).
Platform, etki alanları ve dış sağlayıcılar arasındaki öncelikler üzerinde anlaşın.
Bütçe kaynakları ve'ne yapmadığımızı "düzeltin (açık takaslar).
Uygulama ve riskler hakkında tek bir gerçeği saklayın.

2) Yol haritası ilkeleri

1. Her girişim bir sonuç metriğine bağlıdır ("X'i uygulamak'değil," MTTR'yi %20 azaltmak ").
2. SLO-farkında: Kritik yolların SLO'larını (depozito/bahis/oyunlar/CCL) etkileyen girişimler öncelikli olarak daha yüksektir.
3. Veri odaklı: olaylara, post-mortemlere, uyarılara, Capacity/FinOps panellerine dayanır.
4. Zaman kutulu ve geri dönüşümlü: küçük artışlar, hipotez testi, hızlı geri dönüş.
5. Tek bir hakikat kaynağı: tek bir eser, düzenli incelemeler ve kamu durumları.
6. Gizli iş yok: harita dışında - sadece yönetmeliklere göre "ateşler".

3) Yol haritası çerçevesi: seviyeler ve eserler

Vizyon (12-18 ay): 3-5 operasyonel konu (Güvenilirlik, Ölçek, Maliyet, Güvenlik, Otomasyon).
Sütunlar (6-12 ay): Konuya göre girişim blokları (örn. "%100 kritik yolların SLO kapsamı", "2 bölgede Aktif-Aktif").
Üç aylık plan (Q): metrikleri, sahipleri, bağımlılıkları, bütçesi olan belirli girişimler.
Yinelemeler (2-3 hafta): görevler/destanlar ve gerçek ilerleme.

Girişim mini yapısı:


ID: OPS-23

4) Prioritization: How to compare the incomparable

4. 1 RICE (Reach, Impact, Confidence, Effort)

Reach: affected users/transactions/geo.
Impact: expected contribution to SLO/MTTR/Cost.
Confidence: Confidence in estimates (data/pilots).
Effort: man-weeks/calendar window/dependencies.

4. 2 WSJF (Scaled)

Cost of Delay = (SLO Risk + Revenue Impact + Compliance + Incident Rate)
/ Job Size = duration/force.
Suitable for mixed initiatives (technical debt, security, platform features).

The rule: initiatives with high SLO risk and high cost of delay come first, even if the effect is "invisible" on UI.

5) Relationship with OKR, SLO and incidents

Platform-level OKR:
KR1: "Reduce Change Failure Rate from 18% to 12% by the end of Q2."
KR2: "Increase Pre-Incident Detect Rate from 35% to 60%."
SLO-matrix: for each domain - target p95/p99/Success Rate/Availability.
Incident analytics: the top 3 reasons for the last quarter should have counteraction initiatives in the current one.

6) Resource and budget planning

FTE-matrix: by squads and competencies (SRE, Observability, Data, Integrations).
Provider calendar: maintenance/quota windows (impact on dates).
CapEx/OpEx: licenses/cluster extensions vs command hours.
Buffer: ~ 15-20% for unplanned "fires" and regulatory tasks.
What-don't-do policy: A list of rescheduled/postponed initiatives with reasons.

7) Managing dependencies and risks

Dependency map: who blocks whom (service/provider/data/command).
Risk register: risk, probability/impact, owner, mitigation plan/plan B.
Change freeze: periods of prohibition of major changes (prime time events/tournaments).
Ficheflags/canaries: Mandatory for initiatives affecting traffic.

8) Quarterly cycle (rhythms)

Q-0 (preparation, 2 weeks): data collection (SLO, incidents, costs), revision of topics, preliminary prioritization.
Q planning: protection of initiatives by owners, reconciliation of resources/risks, fixing the Q plan and "not doing" the list.
Weekly sync: status, blockers, adjustments; maximum 30 minutes.
Monthly review: checking effects on metrics, possible re-scope.
Q retro: compare plan/fact, update principles/patterns.

9) Roadmap view formats

Outcome View: grouped by purpose (SLO, Cost, Risk).
Domain View: Payments/Bets/Games/KYC/Platform.
Timeline View: quarterly, with dependency and frieze markers.
Budget View: FTE/CapEx/OpEx by Initiative and Topic.

Example of a quarterly slice (summary):
Initiative     Outcome              Metrics     Term     Owner     Risk
--------------------      -----------------------      --------------------      -----      -------------      -------
Active-Active Games     RTO≤5 min     Availability 99. 95%      Q1–Q2      platform-sre      High
SLO-burn на Payments     − 30% of late incidents     Pre-Incident↑, MTTR↓      Q1       observability      Average
Kafka Lag Guardrails     − 50% of lag storms     Lag p95↓, DLQ↑         Q1       streaming        Average
FinOps Right-sizing      −15% cost/RPS           Cost/RPS↓           Q2       finops         Low

10) Roadmap Success Metrics (KPIs)

Delivery Predictability: percentage of initiatives completed on time (target ≥ 80%).
SLO Coverage:% of critical paths with active SLOs/alerts.
Incident Trend: − X% of P1/P2 QoQ incidents
Change Failure Rate: Target decline by quarter.
Cost Efficiency: Cost/RPS, Cost/transaction - downward trend.
Risk Burn-down: the number of "red" risks and their total weight.
Stakeholder NPS: satisfaction of domain teams with the quality of the Roadmap.

11) Roadmap launch checklist

[] Defined themes/pillars and 3-5 target outcomes per year.
[] Catalog of initiatives linked to metrics and owners.
[] Prioritization methodology (RICE/WSJF) and scales adopted.
[] Checked resources: FTE, provider windows, budgets.
[] Fixed Q-plan + "not doing."
[] Set up Outcome/Domain/Budget panels, alerts by shifts.
[] Review Schedule: weekly/monthly/quarterly.

12) Anti-patterns

List of tasks without outcomes: "make X" instead of "achieve Y by metric."
Hidden initiatives and private arrangements outside of a single artifact.
Eternal epics: no time-box, no verifiable milestones.
Priority "in terms of volume": resources are spent on the "loudest" request, and not on the most valuable one.
No "what not to do": expectations are unmanageable, trust is falling.
Lack of a link with incidents/SLO: "cosmetic" improvements instead of real ones.

13) Templates (fragments)

Initiative Template (YAML):

yaml id: OPS-42 başlık: "Serbest kanaryalar için korkuluklar"

Tema: "Güvenilirlik"

çeyrek: "2025-Q1"

sahibi: "platform-release"

paydaşlar: ["ödemeler", "bahisler", "oyunlar"]

Sonuç: "Salımlardan sonra regresyonları %40 azaltın"

Metrikler:

adı: change_failure_rate hedefi: "<= %12"
adı: post_deploy_regression_rate hedefi: "-40 % QoQ"
slo_impact: ["api _ p99 <= 300ms @ 99. 9," "kullanılabilirlik> = 99. 95%"]

effort_weeks: 6 pirinç:

Erişim: 5000000 # işlemler/QoQ etkisi: 3. 0 güven: 0. 7 çaba: 6 bağımlılık: ["gözlemlenebilirlik-temel", "özellik-bayraklar-çekirdek"]

Riskler:

isim: "sahte kapılar"
hafifletme: "taban çizgisi/ayarlama, trafiğin %10'u için pilot"

Bütçe: fte: 3 capex: 0 kilometre taşları:

adı: tasarım eta: "2025-01-20"
isim: pilot-10 %
eta: "2025-02-10"
isim: sunum-% 100
eta: "2025-03-05"


Quarterly report template (Markdown):

Q1 Ops Yol Haritası - Rapor

Sonuç: SLO Kapsamı %92 (+ 7 pp), MTTR − %18, Maliyet/RPS − %9

Tamamlanan: 8/10 girişim (%80)

Vardiyalar: OPS-31 - Q2 (PSP-X bağımlılığı)

Olaylar: P1 = 2 (− 1 QoQ), ana nedenler: sağlayıcı zaman aşımlarında geri çekilmeler

Takipler: ayar kesiciler, yedek kotalar PSP-Y


14) Süreçlerle entegrasyon

Olay Yönetimi: Her ölüm sonrası Yol Haritasında bir girişim/iyileştirme bileti.
Değişiklikler/sürümler: Büyük girişimler yalnızca bayraklar/kanaryalar ile birlikte gelir.
Kapasite/FinOps: Boşluk ve maliyet eğilimleri ile ayda bir kez senkronizasyon.
Güvenlik/uyumluluk: Gereksinimler ve denetimler için üç aylık kontrol noktaları.

15) 30/60/90 (hızlı başlangıç)

30 gün: Olay/metrik tabanı toplayın, konu başlıkları oluşturun, YAML formatında 10-15 girişimi tanımlayın, RICE/WSJF'yi seçin, Q-planını düzeltin.
60 gün: Sonuç/Etki Alanı/Bütçe panellerini başlatın, ilk çeyrek ortası incelemesini yapın, veri önceliklerini ayarlayın.
90 gün: Q-sonuçlarını özetleyin, ilkeleri ve ölçekleri güncelleyin, yıllık sütunları yeniden işaretleyin.

16) İletişim ve Şeffaflık

Paydaşlar için aylık inceleme: 30 dakika, sonuçlara ve risklere odaklanın.
Asenkron güncellemeler: önce/sonra metrikleri olan kısa girişler.
Tek Yol Haritası kanalı: durumlar, değişiklikler, öncelikli kararlar.
Kırmızı kart kuralı: Herhangi bir takım veri ekleyerek öncelikli bir inceleme başlatabilir (SLO/olay/maliyet).

17) SSS

S: Ya her şey "yanıyorsa've Yol Haritasında zaman yoksa?
C: %15-20'lik bir "yangın tamponu've olayların ana nedenlerini kapsayan en az 3 girişimin Q planını ekleyin. Herhangi bir yeni "sıcak" çalışma sadece önceliklerin yeniden birleştirilmesi yoluyla olur.

S: "Görünmez" girişimlerin (gözlemlenebilirlik, otogazlar) değeri nasıl kanıtlanır?
C: Değişim Hatası Oranı, MTTR, Olay Öncesi Algılama Oranı, geri çekilmeler ve "gece sayfaları". "Öncesi/sonrası dinamiklerini göster.

S: Teknik borçla nasıl başa çıkılır?
C: Borç aynı zamanda sonucu olan bir girişimdir: "N sınıfı olayların % − X'i", "− Y % maliyet/RPS", "+ Z pp. SLO Kapsamı". Ölçülebilir bir sonuç olmadan, borç plana girmez.

Ödemeler/Bahislerde SLO-burn uyarıları

Operasyonel Yol Haritası

Q1 Ops Yol Haritası - Rapor

Bizimle iletişime geçin

Hızlı iletişim

Video yakında güncellenecek

Şu anda projelerle çok meşgulüz