Standardowe procedury operacyjne
1) Co to jest SOP i dlaczego jest potrzebne
SOP (standardowa procedura operacyjna) to sformalizowana, zatwierdzona sekwencja kroków dla powtarzalnych operacji z zrozumiałymi wejściami/wyjściami, rolami i kryteriami jakości.
Cele SOP to:- Zmniejszenie zmienności wykonania i ryzyka.
- Zmniejszyć MTTA/MTTR poprzez działania poza półką.
- Zgodność i audyt: odtwarzalność, identyfikowalność.
- Na pokładzie: przyspieszenie nauki i cienia → solo.
Playbook: playbook - drzewo decyzji z widelcami, SOP - zasady liniowe dla określonego scenariusza (lub odtwarzania gałęzi).
2) Dobre zasady SOP
Wynik-Driven: Skoncentruj się na wynikach (SLO/kryteria biznesowe), nie tylko kroki.
Jednoznaczność: polecenia, parametry, oczekiwane efekty i punkty kontroli.
Bezpieczeństwo domyślnie: bramki, limity, kopia zapasowa/rollback są zarejestrowane.
Minimalny kontekst: krótkie notatki + linki do szczegółowych książek startowych/diagnostyki.
Znaczenie: data przeglądu, właściciel, wersja, data ważności.
Wykonalność: dostęp JIT/JEA, kontrole wstępne, szablony artefaktów.
3) konstrukcja standardowa SOP (szkielet)
ID/Version/Review Date
Name and short purpose (what and why)
Scope (Services/Regions/Tenants, SEV/Risk)
Roles and Responsibilities (RACI: R/A/C/I)
Preconditions (accesses, windows, stage, reserve, artifacts)
Materials/tools (dashboards, feature flags, repos, keys)
Quality gates (SLO-gardrails, quorum of probes, alerts)
Step-by-step instruction (step → command → expected result → verification)
Branches (if X - perform Y) [minimum]
Backout/Rollback (start conditions, steps, verification)
Communications (who, when, where; message templates)
Evidence (what to save: screenshots, logs, chexums, links)
Completion (success criteria, watching who closes the ticket)
Change History (What, By Whom, and Why)
4) Katalog SOP i własność
Pojedyncze repozytorium (Docs-as-Code) z tagami: "domena/ops'," service/checkout "," risk/high "," provider/psp-a ".
Karta właściciela: zespół, kontakty służbowe, właściciel kopii zapasowych.
Znaczenie SLA (np. przegląd co ≤ 90 dni lub po zdarzeniu/zwolnieniu).
Walidator Linter/SOP (CI): weryfikacja struktury, linków, właścicieli, okres przeglądu.
5) Cykl życia SOP
1. Inicjacja (po incydencie/wiertarce/nowym procesie).
2. Projekt (autor = właściciel usługi/procesu).
3. Przegląd (SRE/Security/Legal/Comms - według domeny).
4. Pilot (tablop/dzień gry): czas pomiaru, znajduje → edycje.
5. Publikacja (wersja, data, numer, szablony w katalogu CMDB/usługi).
6. Aplikacja operacyjna (adnotacje w biletach/czatach, zbieranie dowodów).
7. Aktualizacja (przez RCA/CAPA, termin przeglądu, zmiany architektury).
8. Archiwizacja/wyczerpanie (zastąpione nowym SOP/playbook).
6) Połączenia z sąsiednimi artefaktami
Playbooks: SOP - „gałąź liniowa” wewnątrz odtwarzacza; odniesienie od kroków.
Runbook'i: dane techniczne/skrypty są umieszczone w książce startowej, SOP odnosi się.
Polityki (Policy-as-Code): bramy dostępu, uprawnienia, RBAC - obowiązkowe linki.
SLO/SLI: kryteria sukcesu i garde-rails.
Macierz eskalacji: role/czasy, gdy wykonanie SOP nie powiodło się.
Okna konserwacyjne: wymagania dotyczące gniazda/przecinka dla SOP wysokiego ryzyka.
7) Mierniki wydajności SOP
Czas do wykonania (mediana/p95) - jak długo trwa zabieg.
Wskaźnik sukcesu - wskaźnik sukcesu bez eskalacji/odwrócenia.
Kompletność dowodów - pełnia artefaktów.
Uderzenie SLO - czy istnieje jakakolwiek degradacja podczas/po kroku (spalanie-minuty).
Gęstość wad - Uwagi do przeglądu/ćwiczeń przy 10 SOP.
Świeżość to odsetek SOP o przeglądzie ≤ 90 dni.
Adopcja - ile wpisów/okien jest faktycznie powiązanych z SOP.
8) Lista kontrolna autora SOP
- Zdefiniowane granice celu i zastosowania.
- Role, dostęp i okna - opisane.
- Bramy jakości i SLO są wymierne, istnieją źródła sygnału.
- Kroki wykonywalne: polecenia/skrypty, oczekiwane wyniki, weryfikacja.
- Kryteria backout/rollback i launch - jasne.
- Szablony comm są dołączone.
- Lista dowodów jest uporządkowana.
- Wersja/data/właściciel/przegląd określone.
9) Lista kontrolna SOP
- Potwierdzone warunki wstępne i dostęp do JIT/JEA.
- Bilet/pokój wojenny jest otwarty i adnotacje są zawarte.
- Obserwowalność: konieczne deski rozdzielcze/wpisy są otwarte.
- Wykonuję kroki w kolejności; po każdym - weryfikacja.
- W przypadku naruszenia szyn ogrodniczych - natychmiastowe wycofanie się i eskalacja.
- Dowody są pełne; final SLO/business SLI check.
- Bilet zamknięty, aktualizacja strony stanu/komunikatów.
10) Przykłady SOP (fragmenty)
10. 1 SOP: Rolka kanaryjska (REL-ROLLBACK-01)
The goal: to return the stable version when the burn-rate is exceeded or the p99 grows.
Scope: checkout-api service (prod, EU).
Roles: Release (R), IC (A in SEV-1), P1 (R), Comms (I).
Preconditions: feature flags are ready; JEA accesses; release-annotations included.
Gates: slo. payment_success, http_p99; quorum synthetic EU/US + RUM.
Steps:
1) Freeze unrelated depleys.
2) rollback to tag v2. 3. 7 (command...) → waiting 5 minutes.
I expect: p99↓, error_rate↓, burn-rate <threshold.
3) Business SLI check (payment success, conversion) 10 min.
4) Remove the suppression of alerts; update release annotation.
Backout: if rollback does not help - escalate to IC, enable degrade-UX, consider failover.
Comms: "Rolled back; metrics stabilize; next update in 15 minutes."
Evidence: before/after screenshots, link to dashboards, command and output.
Completion: 30 min green SLOs; close the ticket; assign an RCA (if SEV-1).
Version: 1. 6 (2025-10-28)
10. 2 SOP: Planowana aktualizacja DB (MW-DB-UPGRADE-02)
Purpose: update PostgreSQL minor without data loss.
Area: payments-db (prod EU), 02: 00-04: 00 Europe/Kyiv.
Roles: DB Lead (R), SRE (C), Service Owner (A), Comms (R clients).
Preconditions: OK backups; replica in sync; Test upgrade passed.
Gates: lag≤30s, error_rate<0. 5%, p99 <400ms, SLO green 30m.
Steps:
1) Transfer traffic to canary replica 1%→5%→25%; SLI monitoring.
2) Consistently upgrade secondary nodes → switch over → upgrade of the former primary.
3) Restore replication, check consistency.
Backout: promote stable replica; return writer; rolling back packets.
Comms: T-7/-2 days and T-60/-15 min alert; updates q = 30m during the window.
Evidence: migration logs, checksums, p95/p99 graphs.
Completion: observation 60m without burn; MW report with evidence.
Version: 2. 1 (2025-09-12)
10. 3 SOP: przełączanie dostawcy PSP (PROV-PSP-SWITCH-01)
Objective: to maintain payment success_ratio in case of PSP-A degradation.
Trigger: PSP-A red/partial status + success_ratio% ≥2 drop.
Steps:
1) Install weights: PSP-A 30%, PSP-B 70%.
2) Turn on the degrade_payments_ux; enhance retrays (within SLA).
3) Monitor fraud_rate/chargeback-risk 30m.
Backout: Regain weights at green SLI 60m.
Comms: status page (first ≤15m, cadence 30m).
10. 4 SOP: Kontrola odzyskiwania kopii zapasowych (DATA-BACKUP-RESTORE-CHECK-03)
Objective: weekly verification of recoverability.
Steps: lift from backup in isolation → hash control → consistency requests → report.
Success criterion: time-to-restore ≤ 45 min; 100% integrity.
11) Automatyzacja wokół SOP
Szablon SOP: generacja szkieletu z blokiem RACI/gates/przecinek.
Bot performer: kroki z pola wyboru, zegary, przypomnienia cadence, automatyczne zbieranie dowodów.
Integracja z CMDB/Catalog - Serwis posiada listę odpowiednich SOP.
Adnotacje telemetryczne: "SOP-RUN: <ID> krok N' → szybkie parsowanie.
Zasady wstępu: Wdrożenie/okno rozpoczyna się tylko od zielonych bramek SOP.
12) Anty-wzory
SOP bez przeglądu właściciela/daty - dokument „martwy”.
Wzdęcia instrukcje bez kryteriów sukcesu i kopii zapasowej.
Niespójne polecenia/klucze - ryzyko błędów i wycieków.
Różne wersje w wiki i repozytorium są rozbieżnością źródeł prawdy.
Brak dowodów - nic, co potwierdzałoby jakość/zgodność.
„Jeden SOP dla wszystkich spraw” - wykonalność jest stracona.
13) Plan działania na rzecz realizacji (4-6 tygodni)
1. Ned. 1: zatwierdzają szablon SOP, linter i katalog; wybierz 10 najlepszych scenariuszy.
2. Ned. 2: napisz SOP dla wydań/rollback/dostawca/kopie zapasowe; pilotów stołowych.
3. Ned. 3: podłączyć adnotacje ChatOps bot i telemetrii; powiązać wpisy z operacjami SOP.
4. Ned. 4: kwartalny harmonogram przeglądu; Wprowadź wskaźniki świeżości/wskaźnika sukcesu.
5. Ned. 5-6: obejmują 90% operacji krytycznych; DR/Security-SOP; automatyczne zbieranie dowodów.
14) Najważniejsze
SOP sprawia, że operacje są przewidywalne i weryfikowalne: jednolite bramy jakości, szczegółowe kroki, wyraźne role i odwracalność. W połączeniu z odtwarzaczami, politykami, SLO i automatyzacją, przekształca to działanie w niezawodną linię produkcyjną - szybkie reakcje, minimalne ryzyko i zrozumiałą odpowiedzialność.