GH GambleHub

Standard Operating Procedures

1) რა არის SOP და რატომ არის ეს საჭირო

SOP (სტანდარტული ოპერატიული პროექტი) არის ფორმალიზებული, დამტკიცებული ნაბიჯების თანმიმდევრობა გასაგები შეყვანის/გასასვლელებით, როლებითა და ხარისხის კრიტერიუმებით.

SOP მიზნები:
  • ცვალებადობისა და რისკების შემცირება.
  • შემცირება MTTA/MTTR მზა მოქმედებების გამო.
  • შესაბამისობა და აუდიტი: რეპროდუქცია, ტრეკირება.
  • ონბორდინგი: სწავლის დაჩქარება და „shadow-solo“.

SOP - playbuk: playbuk - ჩანგლის გადაწყვეტილებების ხე, SOP - ხაზოვანი რეგულაცია კონკრეტული სცენარისთვის (ან playbook ფილიალი).

2) „კარგი“ SOP პრინციპები

Outcome-Driven: ფოკუსირება შედეგზე (SLO/ბიზნეს კრიტერიუმები), არა მხოლოდ ნაბიჯებზე.
სისწორე: ბრძანებები, პარამეტრები, მოსალოდნელი ეფექტები და კონტროლის წერტილები.
ნაგულისხმევი უსაფრთხოება: კარიბჭეები, შეზღუდვები, backout/rollback რეგისტრირებულია.
მინიმალური კონტექსტი: მოკლე შენიშვნები + ბმულები დეტალურ runbook/დიაგნოზზე.
აქტუალობა: შურისძიების თარიღი, მფლობელი, ვერსია, მოქმედების ვადა.
შესრულება: JIT/JEA- ს წვდომა, წინაპირობების შემოწმება, არტეფაქტების შაბლონები.

3) სტანდარტული სტრუქტურა SOP (ჩონჩხი)


ID/Version/Review Date
Name and short purpose (what and why)
Scope (Services/Regions/Tenants, SEV/Risk)
Roles and Responsibilities (RACI: R/A/C/I)
Preconditions (accesses, windows, stage, reserve, artifacts)
Materials/tools (dashboards, feature flags, repos, keys)
Quality gates (SLO-gardrails, quorum of probes, alerts)
Step-by-step instruction (step → command → expected result → verification)
Branches (if X - perform Y) [minimum]
Backout/Rollback (start conditions, steps, verification)
Communications (who, when, where; message templates)
Evidence (what to save: screenshots, logs, chexums, links)
Completion (success criteria, watching who closes the ticket)
Change History (What, By Whom, and Why)

4) SOP კატალოგი და საკუთრება

ერთი საცავი (Docs-as-Code) წარწერებით: 'domain/ops', 'service/checkout', 'risk/high', 'provider/psp-a'.
მფლობელის ბარათი: გუნდი, მორიგე კონტაქტები, სარეზერვო მფლობელი.
SLA აქტუალობა (მაგალითად, გადასინჯვა ყოველ 90 დღეში ან ინციდენტის/გამოშვების შემდეგ).
Linter/SOP (CI) დამადასტურებელი: სტრუქტურის, ბმულების, მფლობელების, შურისძიების ვადის შემოწმება.

5) სასიცოცხლო ციკლი SOP

1. დაწყება (ინციდენტის/სავარჯიშოების/ახალი პროცესის შემდეგ).
2. პროექტი (ავტორი = სამსახურის/პროცესის მფლობელი).
3. Revium (SRE/Security/Legal/Comms - დომენში).
4. მფრინავი (tabletop/game day): გაზომეთ დრო, აღმოჩენა და რედაქტირება.
5. პუბლიკაცია (ვერსია, თარიღი, ნომერი, შაბლონები CMDB/მომსახურების კატალოგში).
6. ოპერაციული გამოყენება (ვიდეო თიკეტებში/ჩატებში, შერჩევა).
7. განახლება (RCA/CAPA- ს მიხედვით, შურისძიების დროში, არქიტექტურის ცვლილებებზე).
8. არქივირება/დეპრესია (შეიცვალა ახალი SOP/playbook).

6) მეზობელ არტეფაქტებთან ურთიერთობა

ფლეიბუკი: SOP - „ხაზოვანი ფილიალი“ პლეიბუკის შიგნით; ბმული ნაბიჯებიდან.
Runbook 'და: ტექნიკური დეტალები/სკრიპტები მოცემულია runbook- ში, SOP ეხება.
პოლიტიკოსები: დაშვების კარიბჭეები, რეტენსიები, RBAC - სავალდებულო ბმულები.
SLO/SLI: წარმატების კრიტერიუმები და garde-rails.
ესკალაციის მატრიცა: როლები/ტაიმინგი SOP- ის უკმარისობის დროს.
მომსახურების ფანჯრები: მოთხოვნები slot/კომუნებისთვის high-risk SOP.

7) SOP ეფექტურობის მეტრიკა

Time-to-Execute (საშუალო/p95) - რამდენს იკავებს პროცედურა.
Success Rate არის წარმატებული სპექტაკლების წილი ესკალაციის/დაბრუნების გარეშე.
Evidence Completeness - არტეფაქტების შევსება.
SLO Impact - არის თუ არა დეგრადაცია ნაბიჯის/ნაბიჯის შემდეგ (ბურნი-წუთი).
Excect Density - კომენტარები 10 SOP- ზე შურისძიების/ვარჯიშის დროს.
Freshness არის SOP- ის წილი რეპროდუქციით 90 დღის განმავლობაში.
Adoption - რამდენი ალერტა/ფანჯარა ნამდვილად უკავშირდება SOP- ს.

8) SOP ავტორის ჩეკის სია

განისაზღვრება განაცხადის მიზანი და საზღვრები.
აღწერილია როლები, წვდომა და ფანჯრები.

  • ხარისხის კარიბჭეები და SLO - იზომება, არსებობს სიგნალის წყაროები.
  • ნაბიჯები შესრულებულია: ბრძანებები/სკრიპტები, მოსალოდნელი შედეგები, გადამოწმება.
  • Backout/rollback და გაშვების კრიტერიუმები ნათელია.
  • კომის შაბლონები ერთვის.
  • ევიდენციის სია სტრუქტურირებულია.
  • ვერსია/თარიღი/მფლობელი/შურისძიება მითითებულია.

9) SOP მხატვრის ჩეკის სია

  • დადასტურებულია JIT/JEA წინაპირობები და წვდომა.
  • გაიხსნა ticet/war-room და ჩართულია ვიდეოები.
  • დაკვირვება: საჭირო დაშბორდები/ალერტები ღიაა.

მე ვდგავარ ნაბიჯებს წესრიგში; თითოეულის შემდეგ - გადამოწმება.

  • გარდრალის დარღვევით - დაუყოვნებლივი გაფიცვა და ესკალაცია.
  • ევიდენცია სავსეა; საბოლოო შემოწმება SLO/ბიზნეს SLI.
  • ტიკეტი დახურულია, სტატუსის გვერდი/კომსი განახლებულია.

10) მაგალითები SOP (ფრაგმენტები)

10. 1 SOP: კანარის გამოშვება (REL-ROLLBACK-01)


The goal: to return the stable version when the burn-rate is exceeded or the p99 grows.
Scope: checkout-api service (prod, EU).
Roles: Release (R), IC (A in SEV-1), P1 (R), Comms (I).
Preconditions: feature flags are ready; JEA accesses; release-annotations included.
Gates: slo. payment_success, http_p99; quorum synthetic EU/US + RUM.
Steps:
1) Freeze unrelated depleys.
2) rollback to tag v2. 3. 7 (command...) → waiting 5 minutes.
I expect: p99↓, error_rate↓, burn-rate <threshold.
3) Business SLI check (payment success, conversion) 10 min.
4) Remove the suppression of alerts; update release annotation.
Backout: if rollback does not help - escalate to IC, enable degrade-UX, consider failover.
Comms: "Rolled back; metrics stabilize; next update in 15 minutes."
Evidence: before/after screenshots, link to dashboards, command and output.
Completion: 30 min green SLOs; close the ticket; assign an RCA (if SEV-1).
Version: 1. 6 (2025-10-28)

10. 2 SOP: BD დაგეგმვის განახლება (MW-DB-UPGRADE-02)


Purpose: update PostgreSQL minor without data loss.
Area: payments-db (prod EU), 02: 00-04: 00 Europe/Kyiv.
Roles: DB Lead (R), SRE (C), Service Owner (A), Comms (R clients).
Preconditions: OK backups; replica in sync; Test upgrade passed.
Gates: lag≤30s, error_rate<0. 5%, p99 <400ms, SLO green 30m.
Steps:
1) Transfer traffic to canary replica 1%→5%→25%; SLI monitoring.
2) Consistently upgrade secondary nodes → switch over → upgrade of the former primary.
3) Restore replication, check consistency.
Backout: promote stable replica; return writer; rolling back packets.
Comms: T-7/-2 days and T-60/-15 min alert; updates q = 30m during the window.
Evidence: migration logs, checksums, p95/p99 graphs.
Completion: observation 60m without burn; MW report with evidence.
Version: 2. 1 (2025-09-12)

10. 3 SOP: PSP პროვაიდერის შეცვლა (PROV-PSP-SWITCH-01)


Objective: to maintain payment success_ratio in case of PSP-A degradation.
Trigger: PSP-A red/partial status + success_ratio% ≥2 drop.
Steps:
1) Install weights: PSP-A 30%, PSP-B 70%.
2) Turn on the degrade_payments_ux; enhance retrays (within SLA).
3) Monitor fraud_rate/chargeback-risk 30m.
Backout: Regain weights at green SLI 60m.
Comms: status page (first ≤15m, cadence 30m).

10. 4 SOP: ბეკის აღდგენის შემოწმება (DATA-BACUP-RESTORE-CHECK-03)


Objective: weekly verification of recoverability.
Steps: lift from backup in isolation → hash control → consistency requests → report.
Success criterion: time-to-restore ≤ 45 min; 100% integrity.

11) ავტომატიზაცია SOP- ის გარშემო

SOP შაბლონიზატორი: ჩონჩხის წარმოება RACI/კარიბჭეებით/კომმ ბლოკით.
Bot შემსრულებელი: ნაბიჯები ჩეკის ყუთებით, ტაიმერები, კადრების შეხსენებები, ავტომობილების ჯგუფი.
ინტეგრაცია CMDB/კატალოგთან: მომსახურებას აქვს შესაბამისი SOP სია.
ტელემეტრიული სურათები: „SOP-RUN: <ID> step N“ - სწრაფი ანალიზი.
დაშვების პოლიტიკოსები: გამონაყარი/ფანჯარა დაიწყება მხოლოდ SOP მწვანე კარიბჭეებით.

12) ანტი შაბლონები

SOP მფლობელის გარეშე/შურისძიების თარიღი - „მკვდარი“ დოკუმენტი.
გაჟღენთილი ინსტრუქციები წარმატების კრიტერიუმებისა და ზურგჩანთების გარეშე.
არაკოორდინირებული გუნდები/გასაღებები შეცდომებისა და გაჟონვის რისკია.
სხვადასხვა ვერსიები ვიკში და საცავში არის ჭეშმარიტების წყაროების შეუსაბამობა.
არ არსებობს ხილვა - ხარისხის/შესაბამისობის დადასტურების არაფერი აქვს.
„ერთი SOP ყველა შემთხვევაში“ - შესრულება იკარგება.

13) განხორციელების გზის რუკა (4-6 კვირა)

1. ნვე. 1: დაამტკიცეთ SOP შაბლონი, ლინტერი და კატალოგი; შეარჩიეთ ტოპ 10 სცენარი.
2. ნვე. 2: დაწერეთ SOP გამოშვების/გამოტოვების/პროვაიდერის/ბეკაპებისთვის; tabletop მფრინავები.
3. ნვე. 3: დააკავშიროთ ChatOps bot და ტელემეტრიული სურათები; დაუკავშირეთ ალერტებს SOP- სთან.
4. ნვე. 4: კვარტალური შურისძიების გრაფიკი; შეიყვანეთ მეტრიკები Freshness/Success Rate.
5. ნვე. 5-6: კრიტიკული ოპერაციების 90% დაფარვა; DR/Security-SOP; ავტომატური შერჩევა.

14) შედეგი

SOP ოპერაციებს პროგნოზირებად და გადამოწმებულად ხდის: ერთიანი ხარისხის კარიბჭეები, დეტალური ნაბიჯები, აშკარა როლები და შექცევადობა. პლეიბუკებთან, პოლიტიკოსებთან, SLO- სთან და ავტომატიზაციასთან ერთად, ეს ექსპლუატაციას საიმედო წარმოების ხაზად აქცევს - სწრაფი რეაქციები, მინიმალური რისკი და გასაგები პასუხისმგებლობა.

Contact

დაგვიკავშირდით

დაგვიკავშირდით ნებისმიერი კითხვის ან მხარდაჭერისთვის.ჩვენ ყოველთვის მზად ვართ დაგეხმაროთ!

Telegram
@Gamble_GC
ინტეგრაციის დაწყება

Email — სავალდებულოა. Telegram ან WhatsApp — სურვილისამებრ.

თქვენი სახელი არასავალდებულო
Email არასავალდებულო
თემა არასავალდებულო
შეტყობინება არასავალდებულო
Telegram არასავალდებულო
@
თუ მიუთითებთ Telegram-ს — ვუპასუხებთ იქაც, დამატებით Email-ზე.
WhatsApp არასავალდებულო
ფორმატი: ქვეყნის კოდი და ნომერი (მაგალითად, +995XXXXXXXXX).

ღილაკზე დაჭერით თქვენ ეთანხმებით თქვენი მონაცემების დამუშავებას.