Əməliyyatlarda rollar və vəzifələr
1) Niyə rolları rəsmiləşdirmək
Rolların dəqiq paylanması MTTA/MTTR-ni azaldır, «boz zonaları» aradan qaldırır, buraxılışları sürətləndirir və SLO/komplayensiyaya uyğunluğu təkrar edilə bilər. Rollar = məsuliyyət + səlahiyyətlər + interfeyslər (kimə yazırıq, kimə eskalasiya edirik, hansı qərarlara icazə verilir).
2) Əsas RACI modeli
R (Responsible) - işi yerinə yetirir.
A (Accountable) - son məsuliyyət daşıyır və qərarlar qəbul edir.
C (Consulted) - ekspert, əvvəl/zamanı məsləhətləşir.
I (Informed) - SLA vasitəsilə məlumat verilir.
3) Rollar kataloqu (təsvirlər və vəzifələr)
3. 1 Incident Commander (IC)
Məqsəd: SEV-1/0 hadisəsinə cavab verir.
Səlahiyyətlər: SEV elan etmək, relizləri dondurmaq, trafiki dəyişdirmək, eskalasiya etmək.
Əsas vəzifələr: taymline, qərar qəbul, diqqət saxlamaq, tapşırıqların paylanması, Go/No-Go.
Artefaktlar: hadisə kartı, SLA yenilənməsi, son AAR.
3. 2 P1/P2 On-Call (Primary/Secondary)
Məqsəd: ilkin cavab və texniki fəaliyyət.
P1: triaj, playbook start, IC ilə əlaqə.
P2: backup, mürəkkəb dəyişikliklər, kontekstin saxlanması, fırtınalarda - sabpotları alır.
3. 3 SRE / Platform Engineer
Məqsəd: platforma və məhəccərin etibarlılığı (SLO, alertlər, GitOps, avtoskeyl, DR).
Vəzifələr: SLI/SLO, təhlükə gigiyenası, mütərəqqi buraxılışlar, kod kimi infrastruktur, capacity, observability.
Hadisə zamanı: kök diaqnostikası, geri çəkilmə/geri çəkilmə, degrade-UX-in daxil edilməsi.
3. 4 Service Owner / Product Owner
Məqsəd: biznes mənasında xidmət keyfiyyəti.
Vəzifələr: SLO/prioritetlərin müəyyənləşdirilməsi, buraxılışların/pəncərələrin əlaqələndirilməsi, Go/No-Go-da iştirak.
Coms: Comms ilə müştəri nə vaxt və nə demək həll edir.
3. 5 Release Manager
Məqsəd: dəyişikliklərin təhlükəsiz çatdırılması.
Tapşırıqlar: relizlərin orkestri, geytlərin çekapı, kanareyka/mavi-yaşıl, relizlərin izahları, hadisələr zamanı freeze.
3. 6 CAB Chair / Change Manager
Məqsəd: Dəyişiklik riskinin idarə edilməsi.
Tapşırıqlar: RFC prosesi, plan/backout, münaqişə təqvimi, yüksək risk təsdiqi.
3. 7 RCA Lead / Problem Manager
Məqsəd: post-insident təhlili, CAPA.
Tapşırıqlar: time line, sübut səbəb, hərəkət düzeltmek/qarşısını almaq, nəzarət D + 14/D + 30.
3. 8 Security (IR Lead, AppSec/CloudSec)
Məqsəd: təhlükəsizlik və təhlükəsizlik hadisələrinə cavab vermək.
Tapşırıqlar: triage təhlükəsizlik hadisələri, açar rotasiyası, izolyasiya, forensika, tənzimləyici bildirişlər, WORM audit.
3. 9 DataOps / Analytics
Məqsəd: məlumatların və paylaynların etibarlılığı.
Tapşırıqlar: təzəlik/keyfiyyət (DQ), məlumat müqavilələri, lineage, backfills, SLA BI/hesabatlar.
3. 10 FinOps
Məqsəd: idarə olunan dəyər.
Tapşırıqlar: kvotalar/limitlər, $/vahid hesabatlar, büdcə geytləri, optimallaşdırma (log-həcmlər, egress, rezervasiya).
3. 11 Compliance / Legal
Məqsəd: tənzimləyici və müqavilələrə uyğunluq.
Tapşırıqlar: Bildirişlərin vaxtı, retensiya/dəyişməzlik evidence, ictimai mətnlərin əlaqələndirilməsi.
3. 12 Support / Comms
Məqsəd: müştərilər/daxili steykholderlər ilə ünsiyyət.
Vəzifələr: status-səhifə, yeniləmə maketləri, mesajların tezliyi və aydınlığı, rəylərin toplanması.
3. 13 Vendor Manager / Provider Owner
Məqsəd: Xarici provayderlərlə əlaqələr (PSP/KYC/CDN və s.).
Tapşırıqlar: eskalasiya, SLA/OLA, ehtiyat marşrutlar, pəncərələrin koordinasiyası.
4) Dəyişiklik və eskalasiyada rollar
Variant: P1/P2 + IC-of-the-day (P1 ilə birləşdirilmir).
Zaman eskalasiyası: P1 → P2 (ack olmadan 5 dəqiqə) → IC (10 dəqiqə) → Duty Manager (15 dəqiqə).
Quiet Hours: P2/P3 siqnalları oyanmır; security siqnalları - həmişə.
5) Qarşılıqlı interfeyslər (kim və necə)
IC Release Manager: freeze/rollback həllər.
IC Comms: yenilənmiş mətnlər və tezlik.
SRE DataOps: SLO-gardrayllarda biznes SLI (ödənişlərin müvəffəqiyyəti, məlumatların təravəti).
Təhlükəsizlik Qanuni: Təhlükəsizlik hadisələri ilə bağlı mesajlar, bildiriş müddətləri.
Vendor Owner IC: provayder statusu, switchover/folback.
6) Rollara görə KPI
IC: Time-to-Declare, Comms SLA, MTTR SEV-1/0.
P1/P2: MTTA, Time-to-First-Action, playbukları izləmək%.
SRE/Platform: SLO coverage, Alert Hygiene,% avtomatik geri dönüş uğurlu.
Release Manager: Change Failure Rate, On-time windows, Mean Rollback Time.
RCA Lead: Postmortem Lead Time, CAPA Completion/Overdue, Reopen ≤ 5–10%.
Security: Mean Time to Contain, Secret/Cert Rotation Time.
DataOps: Freshness SLO Adherence, Success Rate Backfills.
Comms: Status Accuracy, Complaint Rate/insident.
FinOps: $/vahid,% QoQ qənaət, kvota uyğunluğu.
7) Rol kartları şablonları
7. 1 IC kartı
Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)
7. 2 P1/P2 kartı
Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries
7. 3 Release Manager kartı
Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after
8) Proseslər və rolların iştirakı (xülasə)
A — Accountable, R — Responsible, C — Consulted, I — Informed.
9) Çek vərəqləri
9. 1 Rolların təyinatı
- Hər rolun sahibi, müavini və əhatə dairəsi var.
- Səlahiyyətlər təsvir edilmişdir (hansı qərarlar qəbul edə bilər).
- playbook və rabitə kanalları bağlı.
- Reaksiya/coms SLA tərəfindən nəşr edilmişdir.
- Rol hər bir xidmətin kataloqunda (CMDB) mövcuddur.
9. 2 Növbə və əl
- Variant kartı yeniləndi (aktiv hadisələr, risklər, pəncərələr).
- JIT/JEA girişləri yoxlanılır.
- Kanala əks-mesaj: «dəyişiklik qəbul edildi/təhvil verildi».
9. 3 Post-hadisə
- AAR keçirilib, RCA təyin.
- CAPA sahibləri/şərtləri, D + 14/D + 30 nəzarət.
- Yenilənmiş playbook/alert/siyasət.
10) Anti-nümunələr
Qeyri-müəyyən «kim qərar verir» → gecikmələr və ikiqat səylər.
IC P1 ilə birləşdirilir - rəhbərliyin itirilməsi.
Legal/Comms ilə razılaşdırılmadan Public Coms.
Release Manager və gates olmadan azad → CFR artım.
Rol ehtiyatı yoxdur (xəstəlik/məzuniyyət).
Prosesin əvəzinə «qəhrəmanlıq»: əl ilə xilas edirik, lakin məhəccəri düzəltmirik.
CMDB/xidmət kataloqunda rollar əks olunmur → itirilmiş eskalasiya.
11) Alətlərə inteqrasiya
ChatOps: команды `/who oncall`, `/declare sev1`, `/freeze`, `/rollback`, `/status update`.
Kataloq/CMDB: xidmətin sahibi, on-call, SLO, dashboard, playbook, pəncərələrdir.
Alert-as-Code: Hər Səhifənin varsayılan owner və playbook var.
GitOps: IC/Release həlləri relizlərin və biletlərin açıqlamalarında əks olunur.
12) Rolların paylanmasının yetkinlik metrikası
Kataloqlarda rolların coverage: ≥ 100% kritik xidmətlər.
On-call SLA: Ack p95 ≤ 5 dəq; Page Storm p95 nəzarət altındadır.
Postmortem SLA: layihə ≤ 72h; CAPA completion ≥ 85%.
Change governance: RFC/CAB ilə% yüksək risk dəyişikliyi ≥ 95%.
Comms: Adherence ≥ 95%, Complaint Rate ↓ QoQ.
13) Mini şablonlar
13. 1 Xidmət üçün RACI (repo fayl)
yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident: {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases: {A: release-manager, R: dev,platform, C: security, I: support}
changes: {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}
13. 2 Rol profili (Markdown)
Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations
14) Yekun
Rollar şəffaf olduqda, səlahiyyətlərlə təmin edildikdə və alətlərə yerləşdirildikdə əməliyyatlar sabitdir. Rollar kataloqu, RACI, aydın interfeyslər və metriklər hər rol üzrə hadisələri, buraxılışları və dəyişiklikləri idarə olunan proseslərə çevirir: qərarlar tez qəbul edilir, risklər idarə olunur və istifadəçilər sabit xidmət görürlər.