Standard Operating Procedures
1) Ի՞ նչ է SOP-ը և ինչո՞ ւ է այն անհրաժեշտ։
SOP (Standard Operating Procedure) ձևավորված, պնդված քայլերի հաջորդականություն է 'հասկանալի մուտքերի/ելքերի, դերերի և որակի չափանիշների հետ։
SOP նպատակները
Կատարման և ռիսկերի փոփոխականության նվազումը։
MTTA/MTTR-ի կրճատումը պատրաստ գործողությունների շնորհիվ։
Կոմպլասենսը և աուդիտը 'վերարտադրությունը, ուղեղը։
Onbording 'ուսուցման արագացում և «shadow no solo»։
SOP 210 պլեյբուկ 'պլեյբուկ - լուծումների ծառ, SOP-ը գծային ստանդարտ է հատուկ սցենարի համար (կամ պլեյբուկի ճյուղը)։
2) «լավ» SOP սկզբունքները
Delcope-Driven: արդյունքի վրա (SLO/բիզնես չափանիշներ), ոչ միայն քայլերի վրա։
Միանշանակ 'թիմեր, պարամետրեր, ակնկալվող էֆեկտներ և վերահսկման կետեր։
Լռելյայն անվտանգությունը 'խաղացողներ, լիմիտներ, backout/rollback գրված են։
Առնվազն կոնտեքստը 'կարճ նշումներ + հղում մանրամասն runbook/ախտորոշման վրա։
Արդիականությունն այն է, որ ժամանակը, սեփականատերը, տարբերակը, գործողության ժամանակահատվածը։
Կատարողականություն 'JIT/JLS հասանելի, նախապայմանների ստուգում, արտեֆակտների օրինակներ։
3) SOP ստանդարտ կառուցվածքը (կմախքը)
ID/Version/Review Date
Name and short purpose (what and why)
Scope (Services/Regions/Tenants, SEV/Risk)
Roles and Responsibilities (RACI: R/A/C/I)
Preconditions (accesses, windows, stage, reserve, artifacts)
Materials/tools (dashboards, feature flags, repos, keys)
Quality gates (SLO-gardrails, quorum of probes, alerts)
Step-by-step instruction (step → command → expected result → verification)
Branches (if X - perform Y) [minimum]
Backout/Rollback (start conditions, steps, verification)
Communications (who, when, where; message templates)
Evidence (what to save: screenshots, logs, chexums, links)
Completion (success criteria, watching who closes the ticket)
Change History (What, By Whom, and Why)
4) SOP կատալոգը և սեփականությունը
Մեկ ռեպոզիտորիա (Docs-as-Code) թեորներով '«domain/ops», «medical/wwww.kout», «risk/high», «provider/prone-a»։
Սեփականատիրոջ քարտը 'թիմ, հերթապահ կապ, պահեստային սեփականատեր։
SLA արդիականությունը (օրինակ, նշված է յուրաքանչյուր 3690 օր կամ 108/105-ից հետո)։
Լինտեր/SOP (CI) 'կառուցվածքի, հղումների, սեփականատերերի ստուգում, ռևիզացիայի ժամանակը։
5) SOP կյանքի ցիկլը
1. Նախաձեռնություն (ուսուցումից/նոր գործընթացից հետո)։
2. Չեռնովիկը (հեղինակը = մրցույթի/գործընթացի սեփականատերը)։
3. Ռևյու (MSE/Windows/Legal/Comics - ակուստիկ)։
4. Օդաչուն (tabletop/game day) 'չափում ենք ժամանակը, գտածոները։
5. Հրապարակումը (տարբերակը, ամսաթիվը, համարը, CMDB/2019)։
6. Վիրահատական օգտագործումը (ծանոթություններ tickets/chats, evidence)։
7. Նորարարությունը (RCA/CAPA-ով, նախևառաջ, ճարտարապետության փոփոխություններով)։
8. Արխիվացում/դեպրեսիա (փոխարինվել է նոր SOP/պլեյբուկով)։
6) Կապեր հարևան արտեֆակտների հետ
Պլեյբուսներ ՝ SOP - «գծային ճյուղը» պլեյբուկի ներսում։ հղում քայլերից։
Runbook 'և' տեխնոլոգիական մանրամասները/ջութակները նշված են runbook, SOP 2019-ում։
Քաղաքական գործիչները (Policy-as-Code) 'թույլատրության, ռենտենիայի, RBAC-ի հիթերը պարտադիր հղումներ են։
SLO/SLI 'հաջողության չափանիշներ և garde-rails։
Շարժասանդուղքների մատրիցը 'դերեր/թայմինգներ, երբ SOP-ն աշխատում էր։
Ծառայության պատուհանները 'պահանջներ high-risk SOP-ի համար։
7) SOP արդյունավետության մետրերը
Time-to-Execom (մեդիա/r95) - որքա՞ ն է ընթացակարգը։
Success Rate-ը հաջողակ կատարումների մասն է առանց էսկալացիայի/արձագանքման։
Evidence Completeness-ը արտեֆակտների լցումն է։
SLO Impact - կա՞ արդյոք դեգրադացիա/հետո/( burn-րոպե)։
International Dronity-ը 10 SOP-ի ռևսի/ուսմունքների մեկնաբանություններն են։
Freshness-ը SOP-ի մասն է 90 օրվա ընթացքում։
Adoption-ը, քանի ալտեր/պատուհաններ իսկապես կապված են SOP-ի հետ։
8) SOP հեղինակի չեկի թերթիկը
- Նպատակը և օգտագործման սահմանները որոշվում են։
- Դերերը, հասանելի և պատուհանները նկարագրված են։
- Որակի և SLO գեյտերը չափվում են, կան ազդանշանների աղբյուրներ։
- Քայլերը կատարվում են ՝ թիմեր/ջութակներ, ակնկալվող արդյունքներ, հավատալիքներ։
- Backout/rollback և գործարկման չափանիշները հստակ են։
- Կոմմ ձևանմուշները կցված են։
- Evidence-ցուցակը կառուցվածքային է։
- Տարբերակը/ամսաթիվը/սեփականատերը/հղումը նշված են։
9) SOP-ի կատարողի չեկի թերթիկը
- Ապացուցված են JIT/JLS պայմաններն ու հասանելի։
- Բացված է ticet/war-room և ներառում են։
- Դիտարկումը 'անհրաժեշտ dashbords/alerts բաց են։
- Ես քայլում եմ հերթականությամբ. յուրաքանչյուրից հետո 'հավատացյալ։
- Hardrails խախտելիս 'վերացված backout և էսկալացիա։
- Evidence-ը լցված է; SLO/բիզնես SLI-ի վերջնական ստուգումը։
- Tiket-ը փակված է, կարգավիճակը-էջ/համայնքները նորարարված են։
10) SOP (բեկորներ)
10. 1 SOP: Kanarech ROLLBACK-01 (REL-ROLBACK-01)
The goal: to return the stable version when the burn-rate is exceeded or the p99 grows.
Scope: checkout-api service (prod, EU).
Roles: Release (R), IC (A in SEV-1), P1 (R), Comms (I).
Preconditions: feature flags are ready; JEA accesses; release-annotations included.
Gates: slo. payment_success, http_p99; quorum synthetic EU/US + RUM.
Steps:
1) Freeze unrelated depleys.
2) rollback to tag v2. 3. 7 (command...) → waiting 5 minutes.
I expect: p99↓, error_rate↓, burn-rate <threshold.
3) Business SLI check (payment success, conversion) 10 min.
4) Remove the suppression of alerts; update release annotation.
Backout: if rollback does not help - escalate to IC, enable degrade-UX, consider failover.
Comms: "Rolled back; metrics stabilize; next update in 15 minutes."
Evidence: before/after screenshots, link to dashboards, command and output.
Completion: 30 min green SLOs; close the ticket; assign an RCA (if SEV-1).
Version: 1. 6 (2025-10-28)
10. 2 SOP: Պլանավորված BD (MW-DB-UPGRADE-02)
Purpose: update PostgreSQL minor without data loss.
Area: payments-db (prod EU), 02: 00-04: 00 Europe/Kyiv.
Roles: DB Lead (R), SRE (C), Service Owner (A), Comms (R clients).
Preconditions: OK backups; replica in sync; Test upgrade passed.
Gates: lag≤30s, error_rate<0. 5%, p99 <400ms, SLO green 30m.
Steps:
1) Transfer traffic to canary replica 1%→5%→25%; SLI monitoring.
2) Consistently upgrade secondary nodes → switch over → upgrade of the former primary.
3) Restore replication, check consistency.
Backout: promote stable replica; return writer; rolling back packets.
Comms: T-7/-2 days and T-60/-15 min alert; updates q = 30m during the window.
Evidence: migration logs, checksums, p95/p99 graphs.
Completion: observation 60m without burn; MW report with evidence.
Version: 2. 1 (2025-09-12)
10. 3 SOP 'PMS պրովայդերի անցումը (PRV-PSA-SWITCH-01)
Objective: to maintain payment success_ratio in case of PSP-A degradation.
Trigger: PSP-A red/partial status + success_ratio% ≥2 drop.
Steps:
1) Install weights: PSP-A 30%, PSP-B 70%.
2) Turn on the degrade_payments_ux; enhance retrays (within SLA).
3) Monitor fraud_rate/chargeback-risk 30m.
Backout: Regain weights at green SLI 60m.
Comms: status page (first ≤15m, cadence 30m).
10. 4 SOP 'Bakap վերականգնման ստուգում (CSA-BACKUP-RESTORE-MSK-03)
Objective: weekly verification of recoverability.
Steps: lift from backup in isolation → hash control → consistency requests → report.
Success criterion: time-to-restore ≤ 45 min; 100% integrity.
11) Ավտոմատիզացիան SOP-ի շուրջ
SOP ձևափոխիչը 'կմախքի արտադրությունը RACI/gatts/comm բլոկի հետ։
Բոտ-կատարողը 'քայլեր չեկի տուփերից, թայմերից, cadence-ի հիշեցումներից, evidence-ից։
CMDB/www.ru-ի հետ ինտեգրումը 'revant SOP-ի ցուցակը։
Հեռուստատեսության իմիտացիաները ՝ «SOP-RUN:
Ընդունելու քաղաքականությունները 'deple/պատուհանը սկսում են միայն SOP կանաչ խաղերում։
12) Anti-patterna
SOP առանց սեփականատիրոջ/ամսաթվի '«մեռած» փաստաթուղթ։
Բաժանված հրահանգները առանց հաջողության չափանիշների և backout-ի։
Չհամաձայնեցված թիմերը/բանալիները սխալների և արտահոսքերի վտանգն են։
Wiki-ում և հետազոտություններում տարբեր տարբերակներ ճշմարտության աղբյուրների տարբերությունն են։
Ոչ evidence, ոչ մի բան ապացուցելու որակը/համադրումը։
«Մեկ SOP բոլոր դեպքերի համար», կորցնում է կատարողականությունը։
13) Ճանապարհի քարտեզը (4-6 շաբաթ)
1. Մոսկվան։ 1: հաստատել SOP, լինտեր և կատալոգը։ ընտրել լավագույն 10 ռուբլիներ։
2. Մոսկվան։ 2: գրել SOP օրինագծերի/ռեպատի/պրովայդերի/bakas; tabletop օդաչուները։
3. Մոսկվան։ 3: միացրեք ChatOps-bots-ը և հեռաչափությունը։ կապել ալերտները SOP-ի հետ։
4. Մոսկվան։ 4: եռամսյակային գրաֆիկը խանդավառությամբ; ներդնել Freshness/Success Rate-ը։
5. Մոսկվան։ 5-6 'ծածկել կրիտիկական վիրահատությունների 90 տոկոսը; DR/Security-SOP; ավտոմատացնել evidence հավաքումը։
14) Արդյունքը
SOP-ը վիրահատություններ է անում կանխատեսելի և ստուգելի 'որակի միասնական խաղացողներ, մանրամասն քայլեր, ակնհայտ դերեր և շրջադարձեր։ Պլեյբուսների, քաղաքական գործիչների, SLO-ի և ավտոմատիզացիայի հետ կապի մեջ դա վերածում է ձեռնարկության հուսալի արտադրության գիծ 'արագ ռեակցիաներ, նվազագույն ռիսկ և հասկանալի պատասխանատվություն։