Standard Operating Procedures
1) SOP дегеніміз не және ол не үшін қажет
SOP (Standard Operating Procedure) - бұл түсiнiктi кiрумен/шығумен, рөлдермен және сапа өлшемдерiмен қайталанатын операциялар үшiн қадамдардың ресiмделген, бекiтiлген реттiлiгi.
SOP мақсаттары:- Орындау вариативтілігін және тәуекелдерді төмендету.
- Дайын іс-қимылдар есебінен MTTA/MTTR қысқарту.
- Комплаенс және аудит: жаңғыртылуы, трассалануы.
- Онбординг: оқытуды жеделдету және «shadow → solo».
SOP ≠ плейбук: плейбук - ажыратқыштары бар шешімдер ағашы, SOP - нақты сценарийге (немесе плейбук тармағына) желілік регламент.
2) «Жақсы» SOP принциптері
Outcome-Driven: нәтижеге назар аудару (SLO/бизнес-критерийлер), тек қадамдарға ғана емес.
Біркелкілік: командалар, параметрлер, күтілетін әсерлер және бақылау нүктелері.
Әдепкі қауіпсіздік: гейттер, лимиттер, backout/rollback жазылған.
Мәтінмәндік минимум: қысқа аңғартпалар + егжей-тегжейлі runbook/диагностикаға сілтемелер.
Өзектілігі: реву күні, иесі, нұсқасы, қолданылу мерзімі.
Орындалуы: JIT/JEA қол жетімділігі, алдын ала буындарды тексеру, артефактілердің үлгілері.
3) SOP стандартты құрылымы (скелет)
ID/Version/Review Date
Name and short purpose (what and why)
Scope (Services/Regions/Tenants, SEV/Risk)
Roles and Responsibilities (RACI: R/A/C/I)
Preconditions (accesses, windows, stage, reserve, artifacts)
Materials/tools (dashboards, feature flags, repos, keys)
Quality gates (SLO-gardrails, quorum of probes, alerts)
Step-by-step instruction (step → command → expected result → verification)
Branches (if X - perform Y) [minimum]
Backout/Rollback (start conditions, steps, verification)
Communications (who, when, where; message templates)
Evidence (what to save: screenshots, logs, chexums, links)
Completion (success criteria, watching who closes the ticket)
Change History (What, By Whom, and Why)
4) SOP каталогы және иелену
Тегтері бар бірыңғай репозиторий (Docs-as-Code): 'domain/ops', 'service/checkout', 'risk/high', 'provider/psp-a'.
Иесінің карточкасы: команда, кезекші байланыс, резерв иесі.
SLA өзектілігі (мысалы, әрбір 90 күн ≤ немесе инциденттен/релизден кейін қайта қарау).
SOP (CI) линтері/валидаторы: құрылымын, сілтемелерін, иелерін, мерзімін тексеру.
5) SOP өмірлік циклі
1. Бастамашылық ету (оқыс оқиғадан/оқу-жаттығудан/жаңа процестен кейін).
2. Жоба жобасы (автор = сервис/процесс иесі).
3. Ревью (SRE/Security/Legal/Comms - домен бойынша).
4. Пилот (tabletop/game day): уақытты өлшейміз, табылған → түзетулер.
5. Жариялау (CMDB/сервис каталогындағы нұсқа, күні, нөмірі, үлгілері).
6. Операциялық қолдану (тикеттердегі/чаттардағы аннотациялар, evidence жинау).
7. Жаңарту (RCA/CAPA бойынша, жаңару мерзімі бойынша, сәулет өзгерістері бойынша).
8. Мұрағаттау/депрекациялау (жаңа SOP/плейбукпен ауыстырылды).
6) Көршілес артефактілермен байланыстар
Плейбуктар: SOP - плейбук ішіндегі «сызықтық бұтақ»; қадамдар сілтемесі.
Runbook 'i: техникалық егжей- тегжейі/скрипттері runbook бағдарламасына енгізілген, SOP сілтеме жасайды.
Саясат (Policy-as-Code): рұқсат гейттері, ретенциялар, RBAC - міндетті сілтемелер.
SLO/SLI: жетістік критерийлері және garde-rails.
Эскалация матрицасы: SOP орындалмаған кездегі рөлдер/таймингтер.
Қызмет көрсету терезелері: high-risk SOP үшін слотқа/коммаларға қойылатын талаптар.
7) SOP тиімділік өлшемдері
Time-to-Execute (медиана/р95) - процедура қанша уақыт алады.
Success Rate - эскалациясыз/қайтарусыз табысты орындаулардың үлесі.
Evidence Completeness - артефактілердің толықтығы.
SLO Impact - адым (burn-минут) кезінде/кейін деградация бар ма.
Defect Density - 10 SOP-ке ревь/жаттығу кезіндегі ескертулер.
Freshness - SOP үлесі 90 күнге ≤.
Adoption - SOP-ке нақты байланған қанша алерт/терезе.
8) SOP авторының чек-парағы
- Қолданудың мақсаты мен шектері айқындалған.
- Рөлдер, рұқсаттар және терезелер - сипатталған.
- Сапа гейті мен SLO - өлшенетін, сигнал көздері бар.
- Қадамдар орындалады: командалар/скрипттер, күтілетін нәтижелер, тексеру.
- Backout/rollback және іске қосу өлшемдері - анық.
- Comm үлгілері қоса берілген.
- Evidence тізімі құрылымдалған.
- Нұсқа/күні/иесі/ревьямен көрсетілген.
9) SOP орындаушысының чек-парағы
- JIT/JEA алдын ала шарттары мен қолжетімділіктері расталды.
- /war-room тикеті ашылды және аңдатпалар қосылды.
- Бақылау қабілеті: қажетті дашбордтар/алерттар ашық.
- Қадамдарды ретімен орындаймын; әрқайсысынан кейін - верификация.
- Гардрейлдер бұзылған жағдайда - дереу backout және эскалация.
- Evidence толтырылған; SLO/бизнес-SLI қорытынды тексеруі.
- Сауал жабылды, мәртебе-бет/коммс жаңартылды.
10) SOP мысалдары (фрагменттер)
10. 1 SOP: Канареялық релизі (REL-ROLLBACK-01)
The goal: to return the stable version when the burn-rate is exceeded or the p99 grows.
Scope: checkout-api service (prod, EU).
Roles: Release (R), IC (A in SEV-1), P1 (R), Comms (I).
Preconditions: feature flags are ready; JEA accesses; release-annotations included.
Gates: slo. payment_success, http_p99; quorum synthetic EU/US + RUM.
Steps:
1) Freeze unrelated depleys.
2) rollback to tag v2. 3. 7 (command...) → waiting 5 minutes.
I expect: p99↓, error_rate↓, burn-rate <threshold.
3) Business SLI check (payment success, conversion) 10 min.
4) Remove the suppression of alerts; update release annotation.
Backout: if rollback does not help - escalate to IC, enable degrade-UX, consider failover.
Comms: "Rolled back; metrics stabilize; next update in 15 minutes."
Evidence: before/after screenshots, link to dashboards, command and output.
Completion: 30 min green SLOs; close the ticket; assign an RCA (if SEV-1).
Version: 1. 6 (2025-10-28)
10. 2 SOP: Жоспарлы жаңарту БД (MW-DB-UPGRADE-02)
Purpose: update PostgreSQL minor without data loss.
Area: payments-db (prod EU), 02: 00-04: 00 Europe/Kyiv.
Roles: DB Lead (R), SRE (C), Service Owner (A), Comms (R clients).
Preconditions: OK backups; replica in sync; Test upgrade passed.
Gates: lag≤30s, error_rate<0. 5%, p99 <400ms, SLO green 30m.
Steps:
1) Transfer traffic to canary replica 1%→5%→25%; SLI monitoring.
2) Consistently upgrade secondary nodes → switch over → upgrade of the former primary.
3) Restore replication, check consistency.
Backout: promote stable replica; return writer; rolling back packets.
Comms: T-7/-2 days and T-60/-15 min alert; updates q = 30m during the window.
Evidence: migration logs, checksums, p95/p99 graphs.
Completion: observation 60m without burn; MW report with evidence.
Version: 2. 1 (2025-09-12)
10. 3 SOP: PSP провайдерін ауыстыру (PROV-PSP-SWITCH-01)
Objective: to maintain payment success_ratio in case of PSP-A degradation.
Trigger: PSP-A red/partial status + success_ratio% ≥2 drop.
Steps:
1) Install weights: PSP-A 30%, PSP-B 70%.
2) Turn on the degrade_payments_ux; enhance retrays (within SLA).
3) Monitor fraud_rate/chargeback-risk 30m.
Backout: Regain weights at green SLI 60m.
Comms: status page (first ≤15m, cadence 30m).
10. 4 SOP: Бэкап қалпына келтіруді тексеру (DATA-BACKUP-RESTORE-CHECK-03)
Objective: weekly verification of recoverability.
Steps: lift from backup in isolation → hash control → consistency requests → report.
Success criterion: time-to-restore ≤ 45 min; 100% integrity.
11) SOP айналасында автоматтандыру
SOP шаблонизаторы: RACI/гейттері/комм-блогы бар скелетті генерациялау.
Бот-орындаушы: чек-бокстары бар қадамдар, таймерлер, cadence бойынша ескертулер, evidence.
CMDB/каталогпен біріктіру: сервисте - релевантты SOP тізімі.
Телеметрия аңдатпалары: «SOP-RUN: <ID> step N» → жылдам талдау.
Рұқсат ету саясаты: деплой/терезе тек SOP жасыл гейтінде басталады.
12) Қарсы үлгілер
SOP иесі/күні жоқ - «өлі» құжат.
Табысқа жету және backout өлшемдерінсіз кеңейтілген нұсқаулар.
Келісілмеген командалар/кілттер - қателер мен ағулар тәуекелі.
wiki және репозиторийдегі әртүрлі нұсқалар - ақиқат көздерінің алшақтығы.
Жоқ evidence - сапаны/комплаенсті растайтын ештеңе жоқ.
«Барлық жағдайларға бір SOP» - орындалуы жоғалады.
13) Енгізу жол картасы (4-6 апта)
1. Нед. 1: SOP үлгісін, линтер мен каталогты бекіту; топ-10 сценарийді таңдау.
2. Нед. 2: релиздер/кері қайтару/провайдер/бэкап үшін SOP жазу; tabletop ұшқыштары.
3. Нед. 3: ChatOps-ботты және телеметрия аңдатпаларын қосу; алгоритмдерді SOP-мен байланыстыру.
4. Нед. 4: тоқсандық кесте ревом; Freshness/Success Rate өлшемдерін енгізу.
5. Нед. 5-6: күрделі операциялардың 90% -ын жабу; DR/Security-SOP; evidence жинауды автоматтандыру.
14) Қорытынды
SOP операцияларды болжамды және тексерілетін етеді: бірыңғай сапа гейті, егжей-тегжейлі қадамдар, айқын рөлдер мен қайтарымдылық. Плейбуктермен, саясаткерлермен, SLO және автоматтандырумен байланыста бұл пайдалануды сенімді өндірістік желіге айналдырады - жылдам реакциялар, ең аз тәуекел және түсінікті жауапкершілік.