GH GambleHub

Operasyonlardaki Rol ve Sorumluluklar

1) Neden rolleri resmileştirmek

Net rol tahsisi MTTA/MTTR'yi azaltır, gri alanları ortadan kaldırır, sürümleri hızlandırır ve SLO/uyumluluk uyumluluğunu tekrarlanabilir hale getirir. Roller = sorumluluk + otorite + arayüzler (kime yazdığımız, kimi yükselttiğimiz, hangi kararların yetkili olduğu).

2) Temel RACI modeli

R (Sorumlu) - işi yapar.
A (Sorumlu) - nihai sorumluluğu taşır ve kararlar alır.
C (Consulted) - uzman, önce/sırasında danışıldı.
I (Informed) - SLA tarafından bilgilendirilir.

Üst düzey örnek:
SüreçARCBEN
Olaylar (SEV-1/0)ICP1/P2, SRE, Sahip Olma EkibiGüvenlik, Ürün, VeriMgmt, destek
BültenlerYayın Yöneticisi/SahibiDev, Platform/SREGüvenlik, QADestek, Mgmt
Değişiklikler (RFC/CAB)CAB SandalyeServis sahibiGüvenlik, SRE, VeriEtkilenen takımlar
Bakım pencereleriServis sahibiPlatform/SREÜrün, DestekMüşteriler/Ortaklar
Post-mortemsRCA KurşunTakım sahibi olmak, ScribeGüvenlik, Veri, ÜrünMgmt

3) Rol kataloğu (tanımlar ve sorumluluklar)

3. 1 Olay Komutanı (IC)

Amaç: SEV-1/0 olaya yanıt verir.
Yetki: SEV'i ilan edin, sürümleri dondurun, trafiği değiştirin, yükseltin.
Ana görevler: zaman çizelgesi, karar verme, odak tutma, görev tahsisi, Go/No-Go.
Artifaktlar: olay kartı, SLA güncellemeleri, son AAR.

3. 2 P1/P2 On-Call (Birincil/İkincil)

Amaç: Ilk tepki ve teknik eylemler.
P1: triyaj, oyun kitapları, IC ile iletişim.
P2: yedekleme, karmaşık değişiklikler, bağlam tutma, fırtınalarda - alt akışları alır.

3. 3 SRE/Platform Mühendisi

Amaç: platform güvenilirliği ve korkuluk (SLO, uyarılar, GitOps, autoscale, DR).
Görevler: SLI/SLO, uyarı hijyeni, aşamalı sürümler, kod olarak altyapı, kapasite, gözlemlenebilirlik.
Olay sırasında: kök tanılama, geri dönüşler/geri dönüşler, degrade-UX etkin.

3. 4 Servis Sahibi/Ürün Sahibi

Amaç: İş anlamında hizmet kalitesi.
Görevler: SLO/öncelikleri tanımlama, sürümleri/pencereleri koordine etme, Go/No-Go'ya katılma.
İletişim: Comms ile birlikte müşterilere ne zaman ve ne söyleyeceğinize karar vermek.

3. 5 Yayın Yöneticisi

Amaç: Güvenli değişim teslimatı.
Görevler: yayınların düzenlenmesi, kapıların kontrolü, kanarya/mavi-yeşil, yayınların ek açıklamaları, olaylar için dondurma.

3. 6 CAB Sandalye/Değişim Yöneticisi

Amaç: Risk yönetimini değiştirmek

Görevler: RFC süreci, plan/geri dönüş, çakışma takvimi, yüksek riskli onaylar.

3. 7 RCA Kurşun/Sorun Yöneticisi

Amaç: Olay sonrası bilgilendirme, CAPA.
Hedefler: zaman çizelgesi, kanıtsal nedensellik, düzeltme/önleme eylemleri, D + 14/D + 30 kontrolü.

3. 8 Güvenlik (IR Lead, AppSec/CloudSec)

Amaç: Güvenlik ve Olaylara Müdahale.
Görevler: triyaj güvenlik olayları, anahtar rotasyon, izolasyon, adli tıp, düzenleyici bildirimler, WORM denetimi.

3. 9 DataOps/Analytics

Amaç: Verilerin ve boru hatlarının güvenilirliği.
Hedefler: Tazelik/kalite (DQ), veri sözleşmeleri, soy, arka dolgular, SLA BI/raporları.

3. 10 FinOps

Amaç: yönetilen değer.
Görevler: Kotalar/limitler, raporlar $/birim, bütçe kapıları, optimizasyonlar (günlük hacimleri, çıkış, rezervasyon).

3. 11 Uyumluluk/Yasal

Amaç: düzenleyici ve sözleşmeye uygunluk.
Görevler: bildirim şartları, kanıtların saklanması/değişmezliği, kamu metinlerinin koordinasyonu.

3. 12 Destek/İletişim

Amaç: Müşterilerle/iç paydaşlarla iletişim.
Görevler: durum sayfası, güncellemelerin maketleri, mesajların sıklığı ve netliği, geri bildirimlerin toplanması.

3. 13 Satıcı Yöneticisi/Sağlayıcı Sahibi

Amaç: Dış sağlayıcılarla ilişkiler (PSP/KYC/CDN, vb.).
Görevler: eskalasyon, SLA/OLA, yedekleme rotaları, pencere koordinasyonu.

4) Değişim ve tırmanıştaki roller

Shift: Günün P1/P2 + IC'si (P1 ile birleştirmeyin).
Zaman artışı: P1 - P2 (ack olmadan 5 dakika) - IC (10 dakika) - Görev Yöneticisi (15 dakika).
Sessiz Saatler: P2/P3 sinyalleri uyanmaz; Güvenlik sinyalleri - her zaman.

5) Etkileşimlerin arayüzleri (kiminle ve nasıl)

IC ↔ Release Manager: Dondurma/geri alma çözümleri.
IC ↔ İletişim: güncelleme metinleri ve frekansı.
SRE ↔ DataOps: SLO-gardrails iş SLI (ödeme başarısı, veri tazeliği).
Güvenlik ↔ Hukuk: Güvenlik olaylarının raporları, bildirim süreleri.
Satıcı Sahibi ↔ IC: sağlayıcı durumu, geçiş/geri dönüşüm.

6) Role göre KPI (kıyaslamalar)

IC: Bildirilecek Zaman, Comms SLA uyumluluğu, SEV-1/0 tarafından MTTR.
P1/P2: MTTA, Time-to-First-Action, % follow playbooks.
SRE/Platform: SLO kapsamı, Uyarı Hijyeni, % otomatik geri dönüşler başarılı.
Sürüm Yöneticisi: Hata Oranını Değiştirme, Zamanında pencereler, Ortalama Geri Alma Süresi.
RCA Kurşun: Postmortem Kurşun Süresi, CAPA Tamamlama/Gecikmiş, Yeniden Açma ≤ %5-10.
Güvenlik: Ortalama Kontrol Süresi, Gizli/Cert Rotasyon Süresi.
DataOps: Tazelik SLO Uyumu, Başarı Oranı Arka Dolguları.
İletişim: Durum Doğruluğu, Şikayet Oranı/Olay.
FinOps: $/unit, % QoQ tasarrufu, kota uyumu.

7) Rol kartı şablonları

7. 1 IC Kartı


Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)

7. 2 P1/P2 kartı


Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries

7. 3 Release Manager Kartı


Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after

8) Süreçler ve rol katılımı (özet)

SüreçICP1/P2SRE/PlatformSahibiSerbest bırakCABGüvenlikDataOpsİletişimSatıcı
OlayARRCBENBENCCRC
Serbest bırakBENBENCARCCCBENBEN
RFC/PencereBENBENRACACCCC
Ölüm sonrasıARRCCBENCCBENBEN

A - Sorumlu, R - Sorumlu, C - Danışılan, I - Bilgilendirilen.

9) Kontrol listeleri

9. 1 Rol atama

  • Her rolün bir sahibi, bir ikamesi ve bir kapsama alanı vardır.
  • Yetkiler (kararların ne yapabileceği) açıklanmıştır.
  • Bağlı oyun kitapları ve bağlantılar.
  • SLA'ları reaksiyon/iletişim yoluyla yayınladı.
  • Her hizmet için CMDB'de rol mevcuttur.

9. 2 Shift ve devir

  • Shift kartı güncellendi (aktif olaylar, riskler, pencereler).
  • JIT/JEA doğrulanmış erişir.
  • "Değişiklik kabul edildi/geçti" kanalına yankı mesajı.

9. 3 Olay sonrası

  • AAR yürütüldü, RCA atandı.
  • Sahipleri/teslim tarihleri ile CAPA, D + 14/D + 30 kontrolü.
  • Güncellenmiş oyun kitapları/uyarılar/politikalar.

10) Anti-desenler

Belirsiz'kim karar verir "- gecikmeler ve yinelenen çabalar.
IC, P1 ile birlikte - liderlik kaybı.
Yasal/Comms ile anlaşma olmadan kamu iletişim.
Release Manager ve Gates olmadan bir sürüm - CFR büyümesi.
Rol rezervasyonu yok (hastalık/izin).
Süreç yerine "kahramanlık": elle tasarruf ediyoruz, ancak korkulukları düzeltmiyoruz.
Roller CMDB/Hizmet Kataloğuna yansıtılmamıştır - kayıp yükselmeler.

11) Araçlara gömme

ChatOps: команды'/who oncall ','/declare sev1','/freeze ','/rollback','/status update '.
Dizin/CMDB: Hizmetin sahibi, nöbetçi, SLO, gösterge panoları, oyun kitapları, pencereler vardır.
Kod Olarak Uyarı: Her Sayfanın bir sahibi ve varsayılan bir oyun kitabı vardır.
GitOps: IC/Release çözümleri, yayın notlarına ve biletlere yansıtılır.

12) Rol dağılımı olgunluk metrikleri

Dizinlerdeki rollerin kapsamı: Kritik hizmetlerin ≥ %100'ü.
Çağrı üzerine SLA: Ack p95 ≤ 5 dk; Sayfa Fırtına p95 kontrol altında.
Postmortem SLA: taslak ≤ 72h; CAPA tamamlama ≥ %85.
Değişim yönetimi: RFC/CAB ile % yüksek riskli değişiklikler ≥ %95.
İletişim: Bağlılık ≥ %95, Şikayet Oranı ↓ QoQ.

13) Mini şablonlar

13. Hizmet için 1 RACI (repo dosyası)

yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident:  {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases:  {A: release-manager, R: dev,platform, C: security, I: support}
changes:  {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}

13. 2 Rol profili (Markdown)


Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations

14) Alt satır

İşlemler, roller şeffaf, güçlendirilmiş ve araçlara yerleştirildiğinde sağlamdır. Rol kataloğu, RACI, her rol için açık arayüzler ve metrikler, olayları, sürümleri ve değişiklikleri yönetilen süreçlere dönüştürür: kararlar hızlı bir şekilde alınır, riskler kontrol edilir ve kullanıcılar istikrarlı bir hizmet görür.

Contact

Bizimle iletişime geçin

Her türlü soru veya destek için bize ulaşın.Size yardımcı olmaya her zaman hazırız!

Entegrasyona başla

Email — zorunlu. Telegram veya WhatsApp — isteğe bağlı.

Adınız zorunlu değil
Email zorunlu değil
Konu zorunlu değil
Mesaj zorunlu değil
Telegram zorunlu değil
@
Telegram belirtirseniz, Email’e ek olarak oradan da yanıt veririz.
WhatsApp zorunlu değil
Format: +ülke kodu ve numara (örneğin, +90XXXXXXXXX).

Butona tıklayarak veri işlemenize onay vermiş olursunuz.