Role i obowiązki w operacjach
1) Dlaczego formalizować role
Jasny przydział ról zmniejsza MTTA/MTTR, eliminuje szare obszary, przyspiesza uwolnienia i sprawia, że SLO/zgodność jest powtarzalna. Role = odpowiedzialność + autorytet + interfejsy (do których piszemy, kogo eskalujemy, jakie decyzje są autoryzowane).
2) Podstawowy model RACI
R (Responsible) - wykonuje pracę.
A (Odpowiedzialność) - ponosi ostateczną odpowiedzialność i podejmuje decyzje.
C (Konsultowany) - ekspert, konsultowany przed/podczas.
I (Informed) - poinformował SLA.
3) Katalog ról (opisy i obowiązki)
3. 1 dowódca incydentu (IC)
Cel: Prowadzi do reakcji na incydent SEV-1/0.
Organ: deklaracja SEV, zwolnienia zamrożone, ruch przełącznikowy, eskalacja.
Główne zadania: harmonogram, podejmowanie decyzji, zatrzymywanie koncentracji, przydzielanie zadań, Go/No-Go.
Artefakty: karta incydentu, aktualizacje SLA, końcowy AAR.
3. 2 P1/P2 Dyżur (podstawowy/wtórny)
Cel: reakcja początkowa i działania techniczne.
P1: triage, running playbooks, communication with IC.
P2: kopia zapasowa, złożone zmiany, retencja kontekstu, w burzach - przyjmuje substracje.
3. 3 SRE/Platform Engineer
Cel: niezawodność platformy i balustrady (SLO, alerty, GitOps, autoskale, DR).
Zadania: SLI/SLO, higiena alarmowa, progresywne wydania, infrastruktura jako kod, pojemność, obserwowalność.
Podczas incydentu: diagnostyka korzeniowa, rollbacks/folbacks, degrade-UX włączone.
3. 4 Właściciel usługi/właściciel produktu
Cel: jakość usług w sensie biznesowym.
Zadania: definiowanie SLO/priorytetów, koordynowanie wersji/okien, uczestnictwo w Go/No-Go.
Komunikaty: Decydując, kiedy i co powiedzieć klientom obok komunikatorów.
3. 5 Menedżer wydania
Cel: Bezpieczna dostawa zmian.
Zadania: orkiestrowanie wydań, sprawdzanie bram, kanaryjsko-niebiesko-zielone, adnotacje wydań, zamrażanie na wypadki.
3. 6 CAB Krzesło/Change Manager
Cel: Zmiana zarządzania ryzykiem
Zadania: proces RFC, plan/kopia zapasowa, kalendarz konfliktów, zatwierdzanie wysokiego ryzyka.
3. 7 RCA Lead/Problem Manager
Cel: odprawa po incydencie, CAPA.
Cele: harmonogram, przyczynowość dowodowa, działania mające na celu skorygowanie/zapobieganie, kontrola D + 14/D + 30.
3. 8 Bezpieczeństwo (IR Lead, AppSec/CloudSec)
Cel: Bezpieczeństwo i reakcja na incydenty.
Zadania: triage security events, key rotation, isolation, forensics, regulatory notifications, WORM audit.
3. 9 „Ops/Analytics”
Cel: niezawodność danych i rurociągów.
Cele: świeżość/jakość (DQ), umowy o dane, rodowód, zasypki, SLA BI/sprawozdania.
3. 10 FinOp
Cel: wartość zarządzana.
Zadania: kwoty/limity, raporty $/unit, bramy budżetowe, optymalizacja (woluminy dziennika, egress, rezerwacja).
3. 11 Zgodność z prawem
Cel: zgodność z przepisami i umową.
Zadania: warunki powiadamiania, przechowywanie/niezmienność dowodów, koordynacja tekstów publicznych.
3. 12 Wsparcie/komunikatory
Cel: komunikacja z klientami/zainteresowanymi stronami wewnętrznymi.
Zadania: strona stanu, kopiowanie aktualizacji, częstotliwość i jasność wiadomości, zbieranie informacji zwrotnych.
3. 13 Menedżer/właściciel dostawcy
Cel: relacje z zewnętrznymi dostawcami (PSP/KYC/CDN itp.).
Zadania: eskalacja, SLA/OLA, trasy kopii zapasowych, koordynacja okien.
4) Role w przesunięciu i eskalacji
Zmiana: P1/P2 + IC-of-the-day (nie łączyć z P1).
Eskalacja czasu: P1 → P2 (5 min bez acka) → IC (10 min) → Menedżer obowiązków (15 min).
Ciche godziny: sygnały P2/P3 nie budzą się; sygnały bezpieczeństwa - zawsze.
5) Interfejsy interakcji (z kim i w jaki sposób)
Menedżer wydawania IC: zamrażanie/odwracanie rozwiązań.
IC • Comms: aktualizuj teksty i częstotliwość.
SRE w SLA: biznes SLI (sukces płatniczy, świeżość danych) w SLO-gardrails.
Bezpieczeństwo „Legal”: raporty o zdarzeniach związanych z bezpieczeństwem, okresy powiadomienia.
Właściciel dostawcy: status dostawcy, przełącznik/folback.
6) KPI według roli (wartości odniesienia)
IC: Time-to-Declare, Comms SLA zgodności, MTTR przez SEV-1/0.
P1/P2: MTTA, Time-to-First-Action,% follow playbooks.
SRE/Platform: pokrycie SLO, Alert Hygiene,% auto-rollbacks pomyślnie.
Menedżer wydania: Zmiana wskaźnika awarii, Okna w czasie, Średni czas zwrotu.
RCA Lead: Postmortem Lead Time, CAPA Completion/Overdue, Reopen ≤ 5-10%.
Bezpieczeństwo: średni czas, aby ukryć, Secret/Cert Rotation Time.
• Operacje: świeżość SLO przyleganie, sukces Wskaźnik zasypki.
Komunikaty: Dokładność statusu, Wskaźnik reklamacji/incydent.
FinOps: $/jednostka,% oszczędności QoQ, zgodność kwot.
7) Szablony kart ról
7. 1 karta IC
Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)
7. 2 karty P1/P2
Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries
7. 3 Wydanie karty menedżera
Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after
8) Procesy i udział w rolach (streszczenie)
A - Odpowiedzialność, R - Odpowiedzialne, C - Konsultowane, I - Poinformowane.
9) Listy kontrolne
9. 1 Przypisywanie ról
- Każda rola ma właściciela, zastępcę i obszar pokrycia.
- Autoryzacje (jakie decyzje mogą być podejmowane) są opisane.
- Powiązane playbooks i linki.
- Opublikowane SLA za pomocą reakcji/komunikatów.
- Rola jest dostępna w CMDB dla każdej usługi.
9. 2 Przesunięcie i przekazanie
- Aktualizacja karty zmiany (aktywne incydenty, ryzyko, okna).
- Zweryfikowany dostęp JIT/JEA.
- Wiadomość echo do kanału „zmiana przyjęta/przekazana”.
9. 3 Po incydencie
- AAR przeprowadzone, przypisane RCA.
- CAPA z właścicielami/terminami, D + 14/D + 30 kontroli.
- Zaktualizowane playbooks/alerts/policies.
10) Anty-wzory
Niejasne „kto decyduje” → opóźnia i duplikuje wysiłki.
IC w połączeniu z P1 - utrata przywództwa.
Komunikacja publiczna bez zgody z Legal/Comms.
Wydanie bez Release Manager i bramy → wzrost CFR.
Brak rezerwacji roli (choroba/urlop).
"Heroizm' zamiast procesu: zapisujemy ręcznie, ale nie naprawić balustrady.
Role nie znajdują odzwierciedlenia w CMDB/Service Catalog → utracone eskalacje.
11) Wbudowanie w narzędzia
ChatOps: команда '/who oncall ', '/declare sev1', '/freeze ', '/rollback', '/status update '.
Katalog/CMDB: usługa posiada właściciela, dyżur, SLO, deski rozdzielcze, playbooks, okna.
Alert-as-Code: Każda strona ma właściciela i domyślny odtwarzacz.
GitOps: Rozwiązania IC/Release znajdują odzwierciedlenie w adnotacjach i biletach na wydanie.
12) Wskaźniki dojrzałości dystrybucji ról
Zakres ról w katalogach: ≥ 100% usług krytycznych.
Dyżurny SLA: Ack p95 ≤ 5 min; Strona Burza p95 pod kontrolą.
Postmortem SLA: projekt ≤ 72h; Ukończenie CAPA ≥ 85%.
Zarządzanie zmianami:% zmian wysokiego ryzyka przy RFC/CAB ≥ 95%.
Komunikaty: Przestrzeganie ≥ 95%, Skarga Szybkość
13) Mini szablony
13. 1 RACI dla usługi (plik w repo)
yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident: {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases: {A: release-manager, R: dev,platform, C: security, I: support}
changes: {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}
13. 2 Profil ról (Markdown)
Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations
14) Najważniejsze
Operacje są solidne, gdy role są przejrzyste, umocowane i wbudowane w narzędzia. Katalog ról, RACI, przejrzyste interfejsy i mierniki dla każdej roli zmieniają incydenty, zwolnienia i zmiany w zarządzanych procesach: decyzje są podejmowane szybko, ryzyko jest kontrolowane, a użytkownicy widzą stabilną usługę.