Operasyonlardaki Rol ve Sorumluluklar
1) Neden rolleri resmileştirmek
Net rol tahsisi MTTA/MTTR'yi azaltır, gri alanları ortadan kaldırır, sürümleri hızlandırır ve SLO/uyumluluk uyumluluğunu tekrarlanabilir hale getirir. Roller = sorumluluk + otorite + arayüzler (kime yazdığımız, kimi yükselttiğimiz, hangi kararların yetkili olduğu).
2) Temel RACI modeli
R (Sorumlu) - işi yapar.
A (Sorumlu) - nihai sorumluluğu taşır ve kararlar alır.
C (Consulted) - uzman, önce/sırasında danışıldı.
I (Informed) - SLA tarafından bilgilendirilir.
3) Rol kataloğu (tanımlar ve sorumluluklar)
3. 1 Olay Komutanı (IC)
Amaç: SEV-1/0 olaya yanıt verir.
Yetki: SEV'i ilan edin, sürümleri dondurun, trafiği değiştirin, yükseltin.
Ana görevler: zaman çizelgesi, karar verme, odak tutma, görev tahsisi, Go/No-Go.
Artifaktlar: olay kartı, SLA güncellemeleri, son AAR.
3. 2 P1/P2 On-Call (Birincil/İkincil)
Amaç: Ilk tepki ve teknik eylemler.
P1: triyaj, oyun kitapları, IC ile iletişim.
P2: yedekleme, karmaşık değişiklikler, bağlam tutma, fırtınalarda - alt akışları alır.
3. 3 SRE/Platform Mühendisi
Amaç: platform güvenilirliği ve korkuluk (SLO, uyarılar, GitOps, autoscale, DR).
Görevler: SLI/SLO, uyarı hijyeni, aşamalı sürümler, kod olarak altyapı, kapasite, gözlemlenebilirlik.
Olay sırasında: kök tanılama, geri dönüşler/geri dönüşler, degrade-UX etkin.
3. 4 Servis Sahibi/Ürün Sahibi
Amaç: İş anlamında hizmet kalitesi.
Görevler: SLO/öncelikleri tanımlama, sürümleri/pencereleri koordine etme, Go/No-Go'ya katılma.
İletişim: Comms ile birlikte müşterilere ne zaman ve ne söyleyeceğinize karar vermek.
3. 5 Yayın Yöneticisi
Amaç: Güvenli değişim teslimatı.
Görevler: yayınların düzenlenmesi, kapıların kontrolü, kanarya/mavi-yeşil, yayınların ek açıklamaları, olaylar için dondurma.
3. 6 CAB Sandalye/Değişim Yöneticisi
Amaç: Risk yönetimini değiştirmek
Görevler: RFC süreci, plan/geri dönüş, çakışma takvimi, yüksek riskli onaylar.
3. 7 RCA Kurşun/Sorun Yöneticisi
Amaç: Olay sonrası bilgilendirme, CAPA.
Hedefler: zaman çizelgesi, kanıtsal nedensellik, düzeltme/önleme eylemleri, D + 14/D + 30 kontrolü.
3. 8 Güvenlik (IR Lead, AppSec/CloudSec)
Amaç: Güvenlik ve Olaylara Müdahale.
Görevler: triyaj güvenlik olayları, anahtar rotasyon, izolasyon, adli tıp, düzenleyici bildirimler, WORM denetimi.
3. 9 DataOps/Analytics
Amaç: Verilerin ve boru hatlarının güvenilirliği.
Hedefler: Tazelik/kalite (DQ), veri sözleşmeleri, soy, arka dolgular, SLA BI/raporları.
3. 10 FinOps
Amaç: yönetilen değer.
Görevler: Kotalar/limitler, raporlar $/birim, bütçe kapıları, optimizasyonlar (günlük hacimleri, çıkış, rezervasyon).
3. 11 Uyumluluk/Yasal
Amaç: düzenleyici ve sözleşmeye uygunluk.
Görevler: bildirim şartları, kanıtların saklanması/değişmezliği, kamu metinlerinin koordinasyonu.
3. 12 Destek/İletişim
Amaç: Müşterilerle/iç paydaşlarla iletişim.
Görevler: durum sayfası, güncellemelerin maketleri, mesajların sıklığı ve netliği, geri bildirimlerin toplanması.
3. 13 Satıcı Yöneticisi/Sağlayıcı Sahibi
Amaç: Dış sağlayıcılarla ilişkiler (PSP/KYC/CDN, vb.).
Görevler: eskalasyon, SLA/OLA, yedekleme rotaları, pencere koordinasyonu.
4) Değişim ve tırmanıştaki roller
Shift: Günün P1/P2 + IC'si (P1 ile birleştirmeyin).
Zaman artışı: P1 - P2 (ack olmadan 5 dakika) - IC (10 dakika) - Görev Yöneticisi (15 dakika).
Sessiz Saatler: P2/P3 sinyalleri uyanmaz; Güvenlik sinyalleri - her zaman.
5) Etkileşimlerin arayüzleri (kiminle ve nasıl)
IC ↔ Release Manager: Dondurma/geri alma çözümleri.
IC ↔ İletişim: güncelleme metinleri ve frekansı.
SRE ↔ DataOps: SLO-gardrails iş SLI (ödeme başarısı, veri tazeliği).
Güvenlik ↔ Hukuk: Güvenlik olaylarının raporları, bildirim süreleri.
Satıcı Sahibi ↔ IC: sağlayıcı durumu, geçiş/geri dönüşüm.
6) Role göre KPI (kıyaslamalar)
IC: Bildirilecek Zaman, Comms SLA uyumluluğu, SEV-1/0 tarafından MTTR.
P1/P2: MTTA, Time-to-First-Action, % follow playbooks.
SRE/Platform: SLO kapsamı, Uyarı Hijyeni, % otomatik geri dönüşler başarılı.
Sürüm Yöneticisi: Hata Oranını Değiştirme, Zamanında pencereler, Ortalama Geri Alma Süresi.
RCA Kurşun: Postmortem Kurşun Süresi, CAPA Tamamlama/Gecikmiş, Yeniden Açma ≤ %5-10.
Güvenlik: Ortalama Kontrol Süresi, Gizli/Cert Rotasyon Süresi.
DataOps: Tazelik SLO Uyumu, Başarı Oranı Arka Dolguları.
İletişim: Durum Doğruluğu, Şikayet Oranı/Olay.
FinOps: $/unit, % QoQ tasarrufu, kota uyumu.
7) Rol kartı şablonları
7. 1 IC Kartı
Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)
7. 2 P1/P2 kartı
Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries
7. 3 Release Manager Kartı
Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after
8) Süreçler ve rol katılımı (özet)
A - Sorumlu, R - Sorumlu, C - Danışılan, I - Bilgilendirilen.
9) Kontrol listeleri
9. 1 Rol atama
- Her rolün bir sahibi, bir ikamesi ve bir kapsama alanı vardır.
- Yetkiler (kararların ne yapabileceği) açıklanmıştır.
- Bağlı oyun kitapları ve bağlantılar.
- SLA'ları reaksiyon/iletişim yoluyla yayınladı.
- Her hizmet için CMDB'de rol mevcuttur.
9. 2 Shift ve devir
- Shift kartı güncellendi (aktif olaylar, riskler, pencereler).
- JIT/JEA doğrulanmış erişir.
- "Değişiklik kabul edildi/geçti" kanalına yankı mesajı.
9. 3 Olay sonrası
- AAR yürütüldü, RCA atandı.
- Sahipleri/teslim tarihleri ile CAPA, D + 14/D + 30 kontrolü.
- Güncellenmiş oyun kitapları/uyarılar/politikalar.
10) Anti-desenler
Belirsiz'kim karar verir "- gecikmeler ve yinelenen çabalar.
IC, P1 ile birlikte - liderlik kaybı.
Yasal/Comms ile anlaşma olmadan kamu iletişim.
Release Manager ve Gates olmadan bir sürüm - CFR büyümesi.
Rol rezervasyonu yok (hastalık/izin).
Süreç yerine "kahramanlık": elle tasarruf ediyoruz, ancak korkulukları düzeltmiyoruz.
Roller CMDB/Hizmet Kataloğuna yansıtılmamıştır - kayıp yükselmeler.
11) Araçlara gömme
ChatOps: команды'/who oncall ','/declare sev1','/freeze ','/rollback','/status update '.
Dizin/CMDB: Hizmetin sahibi, nöbetçi, SLO, gösterge panoları, oyun kitapları, pencereler vardır.
Kod Olarak Uyarı: Her Sayfanın bir sahibi ve varsayılan bir oyun kitabı vardır.
GitOps: IC/Release çözümleri, yayın notlarına ve biletlere yansıtılır.
12) Rol dağılımı olgunluk metrikleri
Dizinlerdeki rollerin kapsamı: Kritik hizmetlerin ≥ %100'ü.
Çağrı üzerine SLA: Ack p95 ≤ 5 dk; Sayfa Fırtına p95 kontrol altında.
Postmortem SLA: taslak ≤ 72h; CAPA tamamlama ≥ %85.
Değişim yönetimi: RFC/CAB ile % yüksek riskli değişiklikler ≥ %95.
İletişim: Bağlılık ≥ %95, Şikayet Oranı ↓ QoQ.
13) Mini şablonlar
13. Hizmet için 1 RACI (repo dosyası)
yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident: {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases: {A: release-manager, R: dev,platform, C: security, I: support}
changes: {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}
13. 2 Rol profili (Markdown)
Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations
14) Alt satır
İşlemler, roller şeffaf, güçlendirilmiş ve araçlara yerleştirildiğinde sağlamdır. Rol kataloğu, RACI, her rol için açık arayüzler ve metrikler, olayları, sürümleri ve değişiklikleri yönetilen süreçlere dönüştürür: kararlar hızlı bir şekilde alınır, riskler kontrol edilir ve kullanıcılar istikrarlı bir hizmet görür.