Role i obowiązki w operacjach

1) Dlaczego formalizować role

Jasny przydział ról zmniejsza MTTA/MTTR, eliminuje szare obszary, przyspiesza uwolnienia i sprawia, że SLO/zgodność jest powtarzalna. Role = odpowiedzialność + autorytet + interfejsy (do których piszemy, kogo eskalujemy, jakie decyzje są autoryzowane).

2) Podstawowy model RACI

R (Responsible) - wykonuje pracę.
A (Odpowiedzialność) - ponosi ostateczną odpowiedzialność i podejmuje decyzje.
C (Konsultowany) - ekspert, konsultowany przed/podczas.
I (Informed) - poinformował SLA.

Przykład najwyższego poziomu:

Proces	A	R	C	JA
Incydenty (SEV-1/0)	IC	P1/P2, SRE, Zespół właścicielski	Bezpieczeństwo, produkt, dane	Mgmt, wsparcie
Wydania	Menedżer/właściciel wydania	Dev, Platforma/SRE	Bezpieczeństwo, QA	Wsparcie, Mgmt
Zmiany (RFC/CAB)	Fotel CAB	Właściciel usługi	Bezpieczeństwo, SRE, Dane	Zespoły dotknięte chorobą
Okna konserwacyjne	Właściciel usługi	Platforma/SRE	Produkt, wsparcie	Klienci/partnerzy
Zwłoki poubojowe	Ołów RCA	Właściciel zespołu, Skrybe	Bezpieczeństwo, dane, produkt	Mgmt

3) Katalog ról (opisy i obowiązki)

3. 1 dowódca incydentu (IC)

Cel: Prowadzi do reakcji na incydent SEV-1/0.
Organ: deklaracja SEV, zwolnienia zamrożone, ruch przełącznikowy, eskalacja.
Główne zadania: harmonogram, podejmowanie decyzji, zatrzymywanie koncentracji, przydzielanie zadań, Go/No-Go.
Artefakty: karta incydentu, aktualizacje SLA, końcowy AAR.

3. 2 P1/P2 Dyżur (podstawowy/wtórny)

Cel: reakcja początkowa i działania techniczne.
P1: triage, running playbooks, communication with IC.
P2: kopia zapasowa, złożone zmiany, retencja kontekstu, w burzach - przyjmuje substracje.

3. 3 SRE/Platform Engineer

Cel: niezawodność platformy i balustrady (SLO, alerty, GitOps, autoskale, DR).
Zadania: SLI/SLO, higiena alarmowa, progresywne wydania, infrastruktura jako kod, pojemność, obserwowalność.
Podczas incydentu: diagnostyka korzeniowa, rollbacks/folbacks, degrade-UX włączone.

3. 4 Właściciel usługi/właściciel produktu

Cel: jakość usług w sensie biznesowym.
Zadania: definiowanie SLO/priorytetów, koordynowanie wersji/okien, uczestnictwo w Go/No-Go.
Komunikaty: Decydując, kiedy i co powiedzieć klientom obok komunikatorów.

3. 5 Menedżer wydania

Cel: Bezpieczna dostawa zmian.
Zadania: orkiestrowanie wydań, sprawdzanie bram, kanaryjsko-niebiesko-zielone, adnotacje wydań, zamrażanie na wypadki.

3. 6 CAB Krzesło/Change Manager

Cel: Zmiana zarządzania ryzykiem

Zadania: proces RFC, plan/kopia zapasowa, kalendarz konfliktów, zatwierdzanie wysokiego ryzyka.

3. 7 RCA Lead/Problem Manager

Cel: odprawa po incydencie, CAPA.
Cele: harmonogram, przyczynowość dowodowa, działania mające na celu skorygowanie/zapobieganie, kontrola D + 14/D + 30.

3. 8 Bezpieczeństwo (IR Lead, AppSec/CloudSec)

Cel: Bezpieczeństwo i reakcja na incydenty.
Zadania: triage security events, key rotation, isolation, forensics, regulatory notifications, WORM audit.

3. 9 „Ops/Analytics”

Cel: niezawodność danych i rurociągów.
Cele: świeżość/jakość (DQ), umowy o dane, rodowód, zasypki, SLA BI/sprawozdania.

3. 10 FinOp

Cel: wartość zarządzana.
Zadania: kwoty/limity, raporty $/unit, bramy budżetowe, optymalizacja (woluminy dziennika, egress, rezerwacja).

3. 11 Zgodność z prawem

Cel: zgodność z przepisami i umową.
Zadania: warunki powiadamiania, przechowywanie/niezmienność dowodów, koordynacja tekstów publicznych.

3. 12 Wsparcie/komunikatory

Cel: komunikacja z klientami/zainteresowanymi stronami wewnętrznymi.
Zadania: strona stanu, kopiowanie aktualizacji, częstotliwość i jasność wiadomości, zbieranie informacji zwrotnych.

3. 13 Menedżer/właściciel dostawcy

Cel: relacje z zewnętrznymi dostawcami (PSP/KYC/CDN itp.).
Zadania: eskalacja, SLA/OLA, trasy kopii zapasowych, koordynacja okien.

4) Role w przesunięciu i eskalacji

Zmiana: P1/P2 + IC-of-the-day (nie łączyć z P1).
Eskalacja czasu: P1 → P2 (5 min bez acka) → IC (10 min) → Menedżer obowiązków (15 min).
Ciche godziny: sygnały P2/P3 nie budzą się; sygnały bezpieczeństwa - zawsze.

5) Interfejsy interakcji (z kim i w jaki sposób)

Menedżer wydawania IC: zamrażanie/odwracanie rozwiązań.
IC • Comms: aktualizuj teksty i częstotliwość.
SRE w SLA: biznes SLI (sukces płatniczy, świeżość danych) w SLO-gardrails.
Bezpieczeństwo „Legal”: raporty o zdarzeniach związanych z bezpieczeństwem, okresy powiadomienia.
Właściciel dostawcy: status dostawcy, przełącznik/folback.

6) KPI według roli (wartości odniesienia)

IC: Time-to-Declare, Comms SLA zgodności, MTTR przez SEV-1/0.
P1/P2: MTTA, Time-to-First-Action,% follow playbooks.
SRE/Platform: pokrycie SLO, Alert Hygiene,% auto-rollbacks pomyślnie.
Menedżer wydania: Zmiana wskaźnika awarii, Okna w czasie, Średni czas zwrotu.
RCA Lead: Postmortem Lead Time, CAPA Completion/Overdue, Reopen ≤ 5-10%.
Bezpieczeństwo: średni czas, aby ukryć, Secret/Cert Rotation Time.
• Operacje: świeżość SLO przyleganie, sukces Wskaźnik zasypki.
Komunikaty: Dokładność statusu, Wskaźnik reklamacji/incydent.
FinOps: $/jednostka,% oszczędności QoQ, zgodność kwot.

7) Szablony kart ról

7. 1 karta IC


Role: Incident Commander
Scope: SEV-1/0 (prod)
Decisions: declare SEV, freeze deploy, traffic shift, rollback/failover
Runbooks: rb://core/ic, rb://comms/status
SLA: TTD ≤10m, first comms ≤15m, updates q=15–30m
Escalations: Duty Manager (15m), Exec On-call (30m)

7. 2 karty P1/P2


Role: Primary/Secondary On-call (service: checkout-api)
Runbooks: rb://checkout/5xx, rb://checkout/rollback
Tools: logs, traces, SLO board, feature flags
SLA: Ack ≤5m, first action ≤10m, handover at shift boundaries

7. 3 Wydanie karty menedżera


Role: Release Manager
Gates: tests, signatures, active_sev=none, SLO guardrails green 30m
Strategy: canary 1/5/25%, blue-green optional, auto-rollback on burn
Evidence: release annotations, diff configs, dashboards before/after

8) Procesy i udział w rolach (streszczenie)

Proces	IC	P1/P2	SRE/Platforma	Właściciel	Zwolnienie	KAB	Bezpieczeństwo	Środki pomocnicze	Komunikaty pokładowe	Sprzedawca
Incydent	A	R	R	C	JA	JA	C	C	R	C
Zwolnienie	JA	JA	C	A	R	C	C	C	JA	JA
RFC/okno	JA	JA	R	A	C	A	C	C	C	C
Pośmiertnie	A	R	R	C	C	JA	C	C	JA	JA

A - Odpowiedzialność, R - Odpowiedzialne, C - Konsultowane, I - Poinformowane.

9) Listy kontrolne

9. 1 Przypisywanie ról

Każda rola ma właściciela, zastępcę i obszar pokrycia.
Autoryzacje (jakie decyzje mogą być podejmowane) są opisane.
Powiązane playbooks i linki.
Opublikowane SLA za pomocą reakcji/komunikatów.
Rola jest dostępna w CMDB dla każdej usługi.

9. 2 Przesunięcie i przekazanie

Aktualizacja karty zmiany (aktywne incydenty, ryzyko, okna).
Zweryfikowany dostęp JIT/JEA.
Wiadomość echo do kanału „zmiana przyjęta/przekazana”.

9. 3 Po incydencie

AAR przeprowadzone, przypisane RCA.
CAPA z właścicielami/terminami, D + 14/D + 30 kontroli.
Zaktualizowane playbooks/alerts/policies.

10) Anty-wzory

Niejasne „kto decyduje” → opóźnia i duplikuje wysiłki.
IC w połączeniu z P1 - utrata przywództwa.
Komunikacja publiczna bez zgody z Legal/Comms.
Wydanie bez Release Manager i bramy → wzrost CFR.
Brak rezerwacji roli (choroba/urlop).
"Heroizm' zamiast procesu: zapisujemy ręcznie, ale nie naprawić balustrady.
Role nie znajdują odzwierciedlenia w CMDB/Service Catalog → utracone eskalacje.

11) Wbudowanie w narzędzia

ChatOps: команда '/who oncall ', '/declare sev1', '/freeze ', '/rollback', '/status update '.
Katalog/CMDB: usługa posiada właściciela, dyżur, SLO, deski rozdzielcze, playbooks, okna.
Alert-as-Code: Każda strona ma właściciela i domyślny odtwarzacz.
GitOps: Rozwiązania IC/Release znajdują odzwierciedlenie w adnotacjach i biletach na wydanie.

12) Wskaźniki dojrzałości dystrybucji ról

Zakres ról w katalogach: ≥ 100% usług krytycznych.
Dyżurny SLA: Ack p95 ≤ 5 min; Strona Burza p95 pod kontrolą.
Postmortem SLA: projekt ≤ 72h; Ukończenie CAPA ≥ 85%.
Zarządzanie zmianami:% zmian wysokiego ryzyka przy RFC/CAB ≥ 95%.

Komunikaty: Przestrzeganie ≥ 95%, Skarga Szybkość

13) Mini szablony

13. 1 RACI dla usługi (plik w repo)

yaml service: payments-api roles:
owner: team-payments oncall: oncall-payments ic: ic-of-the-day raci:
incident:  {A: ic-of-the-day, R: oncall-payments, C: security,data, I: mgmt,comms}
releases:  {A: release-manager, R: dev,platform, C: security, I: support}
changes:  {A: cab, R: owner, C: sre,security, I: affected-teams}
postmortem: {A: rca-lead, R: owner, C: security,data, I: mgmt}

13. 2 Profil ról (Markdown)


Role: Duty Manager
Purpose: Escalation and SEV-1/0
Powers: Assign ICs, reallocate resources, approve freeze
Inputs: # war-room channel, SLO dashboards, IC reports
Outputs: resolutions, post-factual report, CAPA escalations

14) Najważniejsze

Operacje są solidne, gdy role są przejrzyste, umocowane i wbudowane w narzędzia. Katalog ról, RACI, przejrzyste interfejsy i mierniki dla każdej roli zmieniają incydenty, zwolnienia i zmiany w zarządzanych procesach: decyzje są podejmowane szybko, ryzyko jest kontrolowane, a użytkownicy widzą stabilną usługę.

Role i obowiązki w operacjach

Skontaktuj się z nami

Szybki kontakt

Wideo zostanie wkrótce zaktualizowane

Obecnie jesteśmy bardzo zajęci projektami