GH GambleHub

Standard Operating Procedures

1) SOP дегеніміз не және ол не үшін қажет

SOP (Standard Operating Procedure) - бұл түсiнiктi кiрумен/шығумен, рөлдермен және сапа өлшемдерiмен қайталанатын операциялар үшiн қадамдардың ресiмделген, бекiтiлген реттiлiгi.

SOP мақсаттары:
  • Орындау вариативтілігін және тәуекелдерді төмендету.
  • Дайын іс-қимылдар есебінен MTTA/MTTR қысқарту.
  • Комплаенс және аудит: жаңғыртылуы, трассалануы.
  • Онбординг: оқытуды жеделдету және «shadow → solo».

SOP ≠ плейбук: плейбук - ажыратқыштары бар шешімдер ағашы, SOP - нақты сценарийге (немесе плейбук тармағына) желілік регламент.

2) «Жақсы» SOP принциптері

Outcome-Driven: нәтижеге назар аудару (SLO/бизнес-критерийлер), тек қадамдарға ғана емес.
Біркелкілік: командалар, параметрлер, күтілетін әсерлер және бақылау нүктелері.
Әдепкі қауіпсіздік: гейттер, лимиттер, backout/rollback жазылған.
Мәтінмәндік минимум: қысқа аңғартпалар + егжей-тегжейлі runbook/диагностикаға сілтемелер.
Өзектілігі: реву күні, иесі, нұсқасы, қолданылу мерзімі.
Орындалуы: JIT/JEA қол жетімділігі, алдын ала буындарды тексеру, артефактілердің үлгілері.

3) SOP стандартты құрылымы (скелет)


ID/Version/Review Date
Name and short purpose (what and why)
Scope (Services/Regions/Tenants, SEV/Risk)
Roles and Responsibilities (RACI: R/A/C/I)
Preconditions (accesses, windows, stage, reserve, artifacts)
Materials/tools (dashboards, feature flags, repos, keys)
Quality gates (SLO-gardrails, quorum of probes, alerts)
Step-by-step instruction (step → command → expected result → verification)
Branches (if X - perform Y) [minimum]
Backout/Rollback (start conditions, steps, verification)
Communications (who, when, where; message templates)
Evidence (what to save: screenshots, logs, chexums, links)
Completion (success criteria, watching who closes the ticket)
Change History (What, By Whom, and Why)

4) SOP каталогы және иелену

Тегтері бар бірыңғай репозиторий (Docs-as-Code): 'domain/ops', 'service/checkout', 'risk/high', 'provider/psp-a'.
Иесінің карточкасы: команда, кезекші байланыс, резерв иесі.
SLA өзектілігі (мысалы, әрбір 90 күн ≤ немесе инциденттен/релизден кейін қайта қарау).
SOP (CI) линтері/валидаторы: құрылымын, сілтемелерін, иелерін, мерзімін тексеру.

5) SOP өмірлік циклі

1. Бастамашылық ету (оқыс оқиғадан/оқу-жаттығудан/жаңа процестен кейін).
2. Жоба жобасы (автор = сервис/процесс иесі).
3. Ревью (SRE/Security/Legal/Comms - домен бойынша).
4. Пилот (tabletop/game day): уақытты өлшейміз, табылған → түзетулер.
5. Жариялау (CMDB/сервис каталогындағы нұсқа, күні, нөмірі, үлгілері).
6. Операциялық қолдану (тикеттердегі/чаттардағы аннотациялар, evidence жинау).
7. Жаңарту (RCA/CAPA бойынша, жаңару мерзімі бойынша, сәулет өзгерістері бойынша).
8. Мұрағаттау/депрекациялау (жаңа SOP/плейбукпен ауыстырылды).

6) Көршілес артефактілермен байланыстар

Плейбуктар: SOP - плейбук ішіндегі «сызықтық бұтақ»; қадамдар сілтемесі.
Runbook 'i: техникалық егжей- тегжейі/скрипттері runbook бағдарламасына енгізілген, SOP сілтеме жасайды.
Саясат (Policy-as-Code): рұқсат гейттері, ретенциялар, RBAC - міндетті сілтемелер.
SLO/SLI: жетістік критерийлері және garde-rails.
Эскалация матрицасы: SOP орындалмаған кездегі рөлдер/таймингтер.
Қызмет көрсету терезелері: high-risk SOP үшін слотқа/коммаларға қойылатын талаптар.

7) SOP тиімділік өлшемдері

Time-to-Execute (медиана/р95) - процедура қанша уақыт алады.
Success Rate - эскалациясыз/қайтарусыз табысты орындаулардың үлесі.
Evidence Completeness - артефактілердің толықтығы.
SLO Impact - адым (burn-минут) кезінде/кейін деградация бар ма.
Defect Density - 10 SOP-ке ревь/жаттығу кезіндегі ескертулер.
Freshness - SOP үлесі 90 күнге ≤.
Adoption - SOP-ке нақты байланған қанша алерт/терезе.

8) SOP авторының чек-парағы

  • Қолданудың мақсаты мен шектері айқындалған.
  • Рөлдер, рұқсаттар және терезелер - сипатталған.
  • Сапа гейті мен SLO - өлшенетін, сигнал көздері бар.
  • Қадамдар орындалады: командалар/скрипттер, күтілетін нәтижелер, тексеру.
  • Backout/rollback және іске қосу өлшемдері - анық.
  • Comm үлгілері қоса берілген.
  • Evidence тізімі құрылымдалған.
  • Нұсқа/күні/иесі/ревьямен көрсетілген.

9) SOP орындаушысының чек-парағы

  • JIT/JEA алдын ала шарттары мен қолжетімділіктері расталды.
  • /war-room тикеті ашылды және аңдатпалар қосылды.
  • Бақылау қабілеті: қажетті дашбордтар/алерттар ашық.
  • Қадамдарды ретімен орындаймын; әрқайсысынан кейін - верификация.
  • Гардрейлдер бұзылған жағдайда - дереу backout және эскалация.
  • Evidence толтырылған; SLO/бизнес-SLI қорытынды тексеруі.
  • Сауал жабылды, мәртебе-бет/коммс жаңартылды.

10) SOP мысалдары (фрагменттер)

10. 1 SOP: Канареялық релизі (REL-ROLLBACK-01)


The goal: to return the stable version when the burn-rate is exceeded or the p99 grows.
Scope: checkout-api service (prod, EU).
Roles: Release (R), IC (A in SEV-1), P1 (R), Comms (I).
Preconditions: feature flags are ready; JEA accesses; release-annotations included.
Gates: slo. payment_success, http_p99; quorum synthetic EU/US + RUM.
Steps:
1) Freeze unrelated depleys.
2) rollback to tag v2. 3. 7 (command...) → waiting 5 minutes.
I expect: p99↓, error_rate↓, burn-rate <threshold.
3) Business SLI check (payment success, conversion) 10 min.
4) Remove the suppression of alerts; update release annotation.
Backout: if rollback does not help - escalate to IC, enable degrade-UX, consider failover.
Comms: "Rolled back; metrics stabilize; next update in 15 minutes."
Evidence: before/after screenshots, link to dashboards, command and output.
Completion: 30 min green SLOs; close the ticket; assign an RCA (if SEV-1).
Version: 1. 6 (2025-10-28)

10. 2 SOP: Жоспарлы жаңарту БД (MW-DB-UPGRADE-02)


Purpose: update PostgreSQL minor without data loss.
Area: payments-db (prod EU), 02: 00-04: 00 Europe/Kyiv.
Roles: DB Lead (R), SRE (C), Service Owner (A), Comms (R clients).
Preconditions: OK backups; replica in sync; Test upgrade passed.
Gates: lag≤30s, error_rate<0. 5%, p99 <400ms, SLO green 30m.
Steps:
1) Transfer traffic to canary replica 1%→5%→25%; SLI monitoring.
2) Consistently upgrade secondary nodes → switch over → upgrade of the former primary.
3) Restore replication, check consistency.
Backout: promote stable replica; return writer; rolling back packets.
Comms: T-7/-2 days and T-60/-15 min alert; updates q = 30m during the window.
Evidence: migration logs, checksums, p95/p99 graphs.
Completion: observation 60m without burn; MW report with evidence.
Version: 2. 1 (2025-09-12)

10. 3 SOP: PSP провайдерін ауыстыру (PROV-PSP-SWITCH-01)


Objective: to maintain payment success_ratio in case of PSP-A degradation.
Trigger: PSP-A red/partial status + success_ratio% ≥2 drop.
Steps:
1) Install weights: PSP-A 30%, PSP-B 70%.
2) Turn on the degrade_payments_ux; enhance retrays (within SLA).
3) Monitor fraud_rate/chargeback-risk 30m.
Backout: Regain weights at green SLI 60m.
Comms: status page (first ≤15m, cadence 30m).

10. 4 SOP: Бэкап қалпына келтіруді тексеру (DATA-BACKUP-RESTORE-CHECK-03)


Objective: weekly verification of recoverability.
Steps: lift from backup in isolation → hash control → consistency requests → report.
Success criterion: time-to-restore ≤ 45 min; 100% integrity.

11) SOP айналасында автоматтандыру

SOP шаблонизаторы: RACI/гейттері/комм-блогы бар скелетті генерациялау.
Бот-орындаушы: чек-бокстары бар қадамдар, таймерлер, cadence бойынша ескертулер, evidence.
CMDB/каталогпен біріктіру: сервисте - релевантты SOP тізімі.
Телеметрия аңдатпалары: «SOP-RUN: <ID> step N» → жылдам талдау.
Рұқсат ету саясаты: деплой/терезе тек SOP жасыл гейтінде басталады.

12) Қарсы үлгілер

SOP иесі/күні жоқ - «өлі» құжат.
Табысқа жету және backout өлшемдерінсіз кеңейтілген нұсқаулар.
Келісілмеген командалар/кілттер - қателер мен ағулар тәуекелі.
wiki және репозиторийдегі әртүрлі нұсқалар - ақиқат көздерінің алшақтығы.
Жоқ evidence - сапаны/комплаенсті растайтын ештеңе жоқ.
«Барлық жағдайларға бір SOP» - орындалуы жоғалады.

13) Енгізу жол картасы (4-6 апта)

1. Нед. 1: SOP үлгісін, линтер мен каталогты бекіту; топ-10 сценарийді таңдау.
2. Нед. 2: релиздер/кері қайтару/провайдер/бэкап үшін SOP жазу; tabletop ұшқыштары.
3. Нед. 3: ChatOps-ботты және телеметрия аңдатпаларын қосу; алгоритмдерді SOP-мен байланыстыру.
4. Нед. 4: тоқсандық кесте ревом; Freshness/Success Rate өлшемдерін енгізу.
5. Нед. 5-6: күрделі операциялардың 90% -ын жабу; DR/Security-SOP; evidence жинауды автоматтандыру.

14) Қорытынды

SOP операцияларды болжамды және тексерілетін етеді: бірыңғай сапа гейті, егжей-тегжейлі қадамдар, айқын рөлдер мен қайтарымдылық. Плейбуктермен, саясаткерлермен, SLO және автоматтандырумен байланыста бұл пайдалануды сенімді өндірістік желіге айналдырады - жылдам реакциялар, ең аз тәуекел және түсінікті жауапкершілік.

Contact

Бізбен байланысыңыз

Кез келген сұрақ немесе қолдау қажет болса, бізге жазыңыз.Біз әрдайым көмектесуге дайынбыз!

Telegram
@Gamble_GC
Интеграцияны бастау

Email — міндетті. Telegram немесе WhatsApp — қосымша.

Сіздің атыңыз міндетті емес
Email міндетті емес
Тақырып міндетті емес
Хабарлама міндетті емес
Telegram міндетті емес
@
Егер Telegram-ды көрсетсеңіз — Email-ге қоса, сол жерге де жауап береміз.
WhatsApp міндетті емес
Пішім: +ел коды және номер (мысалы, +7XXXXXXXXXX).

Батырманы басу арқылы деректерді өңдеуге келісім бересіз.