Standard Operating Procedures
1) SOP деген эмне жана эмне үчүн керек
SOP (Standard Operating Procedure) - түшүнүктүү кирүүлөр/чыгуулар, ролдор жана сапат критерийлери менен кайталануучу операциялар үчүн формалдаштырылган, бекитилген кадамдар ырааттуулугу.
SOP максаттары:- Аткаруунун өзгөрмөлүүлүгүн жана тобокелдиктерди азайтуу.
- MTTA/MTTR кыскартуу даяр иш-аракеттер менен.
- Комплаенс жана аудит: кайталануучулук, трассалануучулук.
- Онбординг: окутууну тездетүү жана "shadow → solo".
SOP ≠ Playbook: Playbook - кесилиштери менен чечимдерди дарак, SOP - белгилүү бир жагдайда сызыктуу регламент (же Playbook бутагы).
2) "жакшы" SOP негиздери
Outcome-Driven: натыйжасына басым (SLO/бизнес критерийлери), гана кадам эмес.
Так: командалар, параметрлери, күтүлгөн таасирлери жана контролдоо пункттары.
демейки коопсуздук: гейтс, лимиттер, backout/rollback жазылган.
Минимум контекст: кыска эскертүүлөр + деталдуу runbook/диагностика шилтемелер.
Актуалдуулук: ревю датасы, ээси, версиясы, жарактуу мөөнөтү.
Аткаруучулук: JIT/JEA жетүү, алдын ала текшерүү, артефакт үлгүлөрү.
3) SOP стандарттык түзүлүшү (скелет)
ID/Version/Review Date
Name and short purpose (what and why)
Scope (Services/Regions/Tenants, SEV/Risk)
Roles and Responsibilities (RACI: R/A/C/I)
Preconditions (accesses, windows, stage, reserve, artifacts)
Materials/tools (dashboards, feature flags, repos, keys)
Quality gates (SLO-gardrails, quorum of probes, alerts)
Step-by-step instruction (step → command → expected result → verification)
Branches (if X - perform Y) [minimum]
Backout/Rollback (start conditions, steps, verification)
Communications (who, when, where; message templates)
Evidence (what to save: screenshots, logs, chexums, links)
Completion (success criteria, watching who closes the ticket)
Change History (What, By Whom, and Why)
4) SOP каталогу жана ээлик
Бир репозиторий (Docs-as-Code) менен тегдер: 'domain/ops', 'service/checkout', 'risk/high', 'provider/psp-a'.
Ээсинин картасы: команда, нөөмөт байланыштары, резервдик ээси.
SLA актуалдуулугу (мисалы, ар бир ≤ 90 күн же окуя/бошотуу кийин кайра карап чыгуу).
Linter/validator SOP (CI): структурасын текшерүү, шилтемелер, ээлери, review мөөнөтү.
5) SOP жашоо цикли
1. Демилгелөө (окуядан/машыгуудан/жаңы процесстен кийин).
2. Долбоор (автор = сервистин/процесстин ээси).
3. Revew (SRE/Security/Legal/Comms - домен боюнча).
4. Pilot (tabletop/game day): убакыт өлчөө, табуу → түзөтүү.
5. Жарыялоо (версия, датасы, номери, CMDB/кызмат каталогундагы үлгүлөрү).
6. Операциялык колдонуу (тикеттер/чаттарда аннотациялар, evidence чогултуу).
7. Жаңылоо (RCA/CAPA боюнча, ревю мөөнөтү боюнча, архитектуралык өзгөрүүлөр боюнча).
8. Архивация/депрекация (жаңы SOP/playbook менен алмаштырылган).
6) Коңшу экспонаттар менен байланыштар
Playbook: SOP - playbook ичинде "сызыктуу бутагы"; кадамдардын шилтемеси.
Runbook 'i: техникалык маалымат/скрипт runbook берилген, SOP шилтеме берет.
Саясат (Policy-as-Code): гейтс, retents, RBAC - милдеттүү шилтемелер.
SLO/SLI: ийгилик критерийлери жана garde-rails.
Эскалация матрицасы: SOP аткарылбай калганда ролдор/таймингдер.
Тейлөө терезелери: жогорку тобокелдик SOP үчүн слот/жамаат талаптары.
7) SOP натыйжалуулугун өлчөө
Time-to-Execute (mediana/p95) - жол-жобосу канча талап кылынат.
Success Rate - эскалация/кайтарымсыз ийгиликтүү аткаруулардын үлүшү.
Evidence Completeness - экспонаттардын толушу.
SLO Impact - кадам учурунда/кийин деградация бар (burn-мүнөт).
Defect Density - 10 SOP боюнча ревю/машыгууларда эскертүүлөр.
Freshness - 90 күн ≤ ревю менен SOP үлүшү.
Adoption - канча алерт/терезелер чындап SOP байланыштуу.
8) SOP Author чек тизмеси
- Колдонуу максаты жана чектери аныкталган.
- Ролдору, жеткиликтүүлүктөрү жана терезелери - сүрөттөлгөн.
- сапаты жана SLO Гейтс - өлчөнөт, сигналдардын булактары бар.
- кадамдар аткарууга болот: команда/скрипт, күтүлгөн натыйжалар, текшерүү.
- Backout/Rollback жана ишке киргизүү критерийлери - так.
- Comm шаблондор тиркелет.
- Evidence тизмеси структураланган.
- Version/Date/ээси/Review көрсөтүлгөн.
9) SOP аткаруучунун чек тизмеси
- JIT/JEA алдын ала шарттары жана жеткиликтүүлүктөрү тастыкталган.
- Ачык билет/war-room жана аннотациялар киргизилген.
- Байкоо: зарыл dashboard/alerty ачык.
- тартипте кадамдарды аткаруу; кийин - текшерүү.
- Гардрейл бузулганда - дароо backout жана эскалация.
- Evidence толгон; SLO/бизнес-SLI акыркы текшерүү.
- Каттоо жабылды, статус-бет/коммс жаңыланды.
10) SOP мисалдар (үзүндүлөр)
10. 1 SOP: Канар Release (REL-ROLLBACK-01)
The goal: to return the stable version when the burn-rate is exceeded or the p99 grows.
Scope: checkout-api service (prod, EU).
Roles: Release (R), IC (A in SEV-1), P1 (R), Comms (I).
Preconditions: feature flags are ready; JEA accesses; release-annotations included.
Gates: slo. payment_success, http_p99; quorum synthetic EU/US + RUM.
Steps:
1) Freeze unrelated depleys.
2) rollback to tag v2. 3. 7 (command...) → waiting 5 minutes.
I expect: p99↓, error_rate↓, burn-rate <threshold.
3) Business SLI check (payment success, conversion) 10 min.
4) Remove the suppression of alerts; update release annotation.
Backout: if rollback does not help - escalate to IC, enable degrade-UX, consider failover.
Comms: "Rolled back; metrics stabilize; next update in 15 minutes."
Evidence: before/after screenshots, link to dashboards, command and output.
Completion: 30 min green SLOs; close the ticket; assign an RCA (if SEV-1).
Version: 1. 6 (2025-10-28)
10. 2 SOP: DD пландаштырылган жаңыртуу (MW-DB-UPGRADE-02)
Purpose: update PostgreSQL minor without data loss.
Area: payments-db (prod EU), 02: 00-04: 00 Europe/Kyiv.
Roles: DB Lead (R), SRE (C), Service Owner (A), Comms (R clients).
Preconditions: OK backups; replica in sync; Test upgrade passed.
Gates: lag≤30s, error_rate<0. 5%, p99 <400ms, SLO green 30m.
Steps:
1) Transfer traffic to canary replica 1%→5%→25%; SLI monitoring.
2) Consistently upgrade secondary nodes → switch over → upgrade of the former primary.
3) Restore replication, check consistency.
Backout: promote stable replica; return writer; rolling back packets.
Comms: T-7/-2 days and T-60/-15 min alert; updates q = 30m during the window.
Evidence: migration logs, checksums, p95/p99 graphs.
Completion: observation 60m without burn; MW report with evidence.
Version: 2. 1 (2025-09-12)
10. 3 SOP: PSP жөнөтүүчү которуу (PROV-PSP-SWITCH-01)
Objective: to maintain payment success_ratio in case of PSP-A degradation.
Trigger: PSP-A red/partial status + success_ratio% ≥2 drop.
Steps:
1) Install weights: PSP-A 30%, PSP-B 70%.
2) Turn on the degrade_payments_ux; enhance retrays (within SLA).
3) Monitor fraud_rate/chargeback-risk 30m.
Backout: Regain weights at green SLI 60m.
Comms: status page (first ≤15m, cadence 30m).
10. 4 SOP: Backup калыбына келтирүү текшерүү (DATA-BACKUP-RESTORE-CHECK-03)
Objective: weekly verification of recoverability.
Steps: lift from backup in isolation → hash control → consistency requests → report.
Success criterion: time-to-restore ≤ 45 min; 100% integrity.
11) SOP айланасында автоматташтыруу
SOP шаблон: RACI/Gates/Comm-блок менен скелет түзүү.
Бот аткаруучу: чек кутучалар менен кадамдар, таймерлер, cadence эскертүүлөр, унаа чогултуу evidence.
CMDB/каталог менен интеграциялоо: тейлөө - тиешелүү SOP тизмеси.
Телеметрия аннотациялары: "SOP-RUN: <ID> step N" → тез талдоо.
Кирүү саясаты: deploy/терезе жашыл SOP гейт менен гана башталат.
12) Анти-үлгүлөрү
Ээси/датасы жок SOP - "өлүк" документ.
Ийгиликтин критерийлери жана backout жок шишип нускамалар.
Макулдашылбаган командалар/ачкычтар - ката жана агып кетүү коркунучу.
Wiki жана репозиторийдеги ар кандай версиялар - чындыктын булактарынын келишпестиги.
Жок evidence - сапатын/комплаенс тастыктай турган эч нерсе жок.
"Бардык учурларда бир SOP" - аткаруучулук жоголот.
13) Жол картасы киргизүү (4-6 жума)
1. Нед. 1: SOP үлгүсүн бекитүү, линтер жана каталог; 10 сценарийди тандоо.
2. Нед. 2: релиздер үчүн SOP жазуу/кайра/провайдер/backaps; планшет учкучтар.
3. Нед. 3: ChatOps-ботту жана телеметрия аннотацияларын туташтыруу; SOP менен алерттерди байланыштыруу.
4. Нед. 4: кварталдык график ревю; Freshness/Success Rate метрика киргизүү.
5. Нед. 5-6: оор иштердин 90% жабуу; DR/Security-SOP; evidence жыйноону автоматташтыруу.
14) Жыйынтык
SOP бүтүмдөрдү алдын ала жана текшерилүүчү кылат: бирдиктүү сапат гейтс, деталдуу кадамдар, ачык ролдору жана кайтарымдуулугу. Плейбуктар, саясатчылар, SLO жана автоматташтыруу менен бирге бул операцияны ишенимдүү өндүрүш линиясына айландырат - тез реакциялар, минималдуу тобокелдик жана түшүнүктүү жоопкерчилик.