SOP: <коротка дія/мета>

Стандартизація операційних процедур

1) Навіщо це потрібно

SOP - це «операційна ОС» компанії. Стандартизація прибирає хаос і «індивідуальні стилі», знижує MTTR, шум алертів і ризики інцидентів, прискорює онбординг і робить результати відтвореними.

Цілі:

Знизити варіативність дій при інцидентах і рутинах.
Прискорити навчання і підвищити якість хендоверів.
Зробити процеси перевіреними: аудит, метрики, поліпшення за даними.
Забезпечити відповідність регуляторним та внутрішнім вимогам.

2) Принципи стандартизації

1. Єдиний формат і термінологія. Одна нотація, одні визначення (SLO, ETA, Owner).
2. Actionable, не енциклопедія. Тільки перевіряються кроки, критерії успіху і відкату.
3. Мінімальне розгалуження. Чіткі рішення «якщо/то» замість вільного викладу.
4. Версіонування та володіння. У кожного SOP є власник, версія і дата ревізії.
5. Інтеграція з інструментами. Посилання на дашборди, тікети, фічефлаги, команди CLI.
6. Доступність в он-коллі. Швидко пошукати, прочитати, виконати одним посиланням.
7. Безперервне поліпшення. Постмортеми → завдання на оновлення SOP.

3) Каркас SOP (шаблон)



4) SOP classification

Incident: P1/P2 (critical), P3 (important).
Operational routines: releases, feature flags, database migrations, provider failover.
DR/BCP: disabling the region, restoring from backup, working offline.
Quality control/audit: revisions, readiness questionnaires, access.
Security/compliance: KYC/AML checks, log storage, privacy.

5) RACI: Ownership and Responsibility

Process    R (performer)    A (responsible)    C (consultant)    I (notify)
------------------------      ---------------      -----------------      ---------------      -------------
Create/Update SOP     Domain Owner       Head of Ops         SRE/Compliance      Teams
SLA Revision     Ops Enablement      Head of Ops        Domain leads     All
Use in an incident     On-call          Incident Manager      Domain Owner       Stakeholders

6) SOP lifecycle

1. Initiation: need from post-mortem/incident/audit.
2. Draft: by template, with specific artifacts and commands.
3. Review: Domain Owner + Head of Ops + specialized consultants.
4. Publishing: to portal/repository; annotations on dashboards.
5. Training: short training/screencast, knowledge test.
6. Application: recorded in ticket/incident.
7. Audit: by SLA revision or after a significant event.
8. Archiving: mark 'deprecated', indicate replacement.

7) Documentation as code (minimum standard)

We store SOP in Git (Markdown + YAML metadata), PR review, CI-lint.
Required fields are 'owner', 'version', 'last _ review', 'sla _ review'.
Link checker and structure validator in CI; auto-release portal after merge.
Significant changes - through changelog and notifications in the # ops channel.

8) SOP integrations

Incident Manager: Open SOP button when creating/escalating an incident.
Grafana/Observability: references from panels to relevant SOPs; release annotations.
Feature Flags/Release: canary step templates, SLO gates, rollback.
AI assistant: RAG search by SOP, TL; DR and proposals for action.
BCP/DR: DR-playbook automatically loaded by trigger.

9) SOP quality check (KPI and review)

KPI:
Coverage ≥ 90% of critical scenarios are closed by SOP.
Review SLA ≤ 180 days (share of overdue - 0).
Usage Rate ≥ 70% of overt SOP incidents.
DoD Pass Rate ≥ 90% of steps are closed with success criteria.
Broken Links = 0 (по CI).

Weekly monitoring:
Top 5 used and top 5 obsolete SOPs.
SOP communication ↔ postmortems: whether Preventive Actions have been performed.
Noisy SOPs (frequent rollback returns) are candidates for recycling.

10) Containment standards

Steps → specifics: commands/queries/parameters + expected effect in metric.
Time requirements: ETA for updates/next steps.
Escalation: clear matrix, contacts, backup channels.
Security: warnings, restrictions, PII/secrets - via vault/links.
Localization: in the on-call language (critical for distributed commands).

11) SOP examples (fragments)

SOP: Canary pause in SLO degradation

Triggers: error_budget_burn > 4x 10m, api_p99 > 1. 3×baseline 10m

Steps:

1) Pause canary в release-tool (посилання)
2) Перевірити панелі «Change Safety» і «API p99»
3) Створити тікет REG- , вказати baseline/вікно
DoD: p99 ≤ 1. 1 × baseline 15m, помилок
Rollback: повне відключення прапора, постмортем ≤72ch


SOP: PSP Provider Feilover

Triggers: quota_usage>0. 9 OR outbound_error_rate>2×baseline 5m

Steps:

1) Включити роутинг PSP-Y (конфіг/кнопка)
2) Перевірити конверсію депозитів і p95 PSP-Y
3) Анотації на графіках, апдейт в #incident -channel
DoD: success_rate ≥ 99. 5%, p95 ≤ 300мс 10м
Rollback: часткове повернення трафіку 20% при стабілізації PSP-X


12) Чек-листи

Чек-лист готовності SOP:
[] Мета і тригери зрозумілі і вимірні.
[] Є покрокові дії з командами/посиланнями.
[] DoD/Rollback сформульовані.
[] Ескалації та контакти актуальні.
Метадані заповнені (owner, version, last_review).
[] Лінк-чекер і валідатор CI проходять.

Чек-лист застосування SOP (в інциденті):
[] SOP відкритий з Incident Manager/посилання на панелі.
[] Виконані кроки і зафіксовані результати.
[] DoD досягнутий/ні - зазначено.
[] Дії/невідповідності записані в тікеті.
[] Оновлення/поліпшення SOP створені завданнями (якщо знадобилися).

13) Навчання та онбординг

Міні-курси за ключовими SOP (Payments/Bets/Games/KYC).
Shadow-чергування з обов'язковим застосуванням SOP на тренуваннях.
Щотижневі «SOP-клініки»: 30 хвилин розборів/поліпшень.
Симуляції (game-days): відпрацювання DR- і інцидентних SOP.

14) Управління змінами SOP

RFC через PR, теги'minor/major/breaking'.
Breaking-зміни - з обов'язковим навчанням і анонсом.
Авто-повідомлення власникам доменів і он-колу.
Окремий «SOP-Release Notes» в кінці кожного тижня.

15) Анти-патерни

Вільна форма «як вийде» і різні шаблони по командах.
SOP без власника/версії/дати ревізії.
«Енциклопедичні» тексти замість покрокових дій.
Немає Rollback/DoD - немає чим перевіряти успіх.
Биті посилання, команди «вручну з чату», приватні «секретні» кроки.
Невидимі зміни SOP без запису та навчання.

16) 30/60/90 - план впровадження

30 днів:
Затвердити шаблон SOP і мінімальні стандарти.
Створити репозиторій'ops-sop/' (docs-as-code), включити CI-лінтери.
Оцифрувати 10-15 критичних SOP (інциденти/релізи/провайдери).
Підключити Incident Manager і панелі спостережуваності до посилань SOP.

60 днів:
Досягти Coverage ≥ 70% за критичними сценаріями.
Запустити щотижневі «SOP-клініки» і тренінги он-колла.
Додати AI-пошук (RAG) по SOP і TL; DR картки.
Ввести Review SLA (180 днів) і звітність за простроченими SOP.

90 днів:
Coverage ≥ 90%, Usage Rate ≥ 70% інцидентів.
Вбудувати DoD/Rollback у всі SOP, закрити биті посилання (0).
Прив'язати KPI SOP до OKR команд (MTTR, Change Failure Rate).
Провести ретро і зафіксувати поліпшення наступного кварталу.

17) FAQ

Q: Чим SOP відрізняється від runbook?
A: SOP - стандартизована процедура (регламент «як правильно»). Runbook - деталізовані інструкції для конкретного кейса/сервісу. Часто SOP посилається на один або кілька runbook.

Q: Скільки деталей повинно бути в SOP?
A: Рівно стільки, щоб оператор зміг виконати дії без «докопування» в чат. Все, що не впливає на дію - в окремі довідкові матеріали.

Q: Як підтримувати актуальність?
A: SLA ревізії (≤180 днів), автоматичні нагадування, CI-лінтери і метрика Usage/DoD. Будь-який інцидент з відхиленнями → завдання на оновлення SOP.

SOP: <коротка дія/мета>

Стандартизація операційних процедур

Зв’яжіться з нами

Швидкий зв’язок

Відео скоро буде оновлено

Зараз ми дуже завантажені проєктами