Əməliyyat intizamının idarə edilməsi
1) Məqsəd və sahə
Əməliyyat intizamı platformanın gündəlik fəaliyyətinin proqnozlaşdırılmasına, təhlükəsizliyinə və effektivliyinə zəmanət verən qaydalar, vərdişlər və alətlər toplusudur. iGaming üçün bu birbaşa gəlir (depozitlər/dərəcələr), tənzimləyici uyğunluq (KYC/AML/RG) və nüfuza (SLO, status-kommunikasiya) təsir edir.
2) Prinsiplər
1. SLO-first: qərarlar əlçatanlıq/keyfiyyət məqsədlərinə nəzər salmaqla qəbul edilir.
2. Standard Work: Bütün kritik SOP təsvir və yoxlama vərəqləri ilə yoxlanılır.
3. Səhv - sistemin siqnalı: hadisələr «günahkar axtarışa» deyil, təkmilləşdirməyə səbəb olur.
4. Minimum tələb olunan imtiyazlar və SoD: vəzifə ayrılığı və sübut olunabilirlik.
5. Rutini avtomatlaşdırın, qalanını standartlaşdırın.
6. Şəffaflıq: müşahidə, status-səhifələr, açıq metriklər.
7. Kiçik dəyişikliklər batches: qısa dövrlər, geri dönüş, kanarya relizlər.
3) Rollar və məsuliyyət (RACI)
Head of Ops/SRE - intizam, büdcə, siyasət sahibi.
Service Owners (domen lidləri) - SLI/SLO, dəyişikliklər, risk qiymətləndirilməsi.
On-call/IC (növbətçi) - əməliyyat həlləri, eskalasiya.
Comms Lead - xarici/daxili yeniləmələr, status səhifələri.
Change Manager - relizlər və dəyişikliklər prosesinə riayət etmək.
QA/Compliance/Security - SoD nəzarət, audit, tənzimləyici.
Training Lead - operator təlim, sertifikatlaşdırma.
4) Sənədlərin çərçivəsi
SOP: addım-addım prosedurlar (başlanğıc/dayandırma, planlı işlər, PSP feylover, pul çıxarılması).
Runbooks: tez alert hərəkətləri (diaqnostika/fiks/geri).
Siyasət: SoD, Access (RBAC/ABAC), change-management, post-mortems, log saxlama.
Çek vərəqləri: buraxılışdan/işdən əvvəl ön uçuş; post-checks sonra.
Kataloqlar: sahibləri, provayder əlaqə, CMDB, uyğunluq SLI → SLO.
5) Rituallar və dövrlər
Aylıq:- növbəli ötürmə (10-15 dəq), hadisələrə/alertlərə/planlı işlərə baxış; növbətçi daşbordların yoxlanılması.
- stand-up Ops/SRE (15 dəq): burn-rate, «isti» növbələr, risk pəncərələri.
- change-board (CAB) 30-45 dəq: reliz/iş planı, risklər/miqrasiya.
- review alerting: saxta/buraxılmış, eşik düzəliş.
- post-mortem klubu: top hadisələrin təhlili, təkmilləşdirmə hərəkətləri.
- FinOps-baxış: müşahidə/infra dəyəri, optimallaşdırma səmərəliliyi.
- P1 təlimləri (tabletop/game-day), DR/feylover yoxlaması, SLO-ya yenidən baxılması.
6) Dəyişikliklərin idarə edilməsi (Change Management)
Siniflər: Standard (pre-təsdiq), Normal (CAB vasitəsilə), Emergency (IC/CL və CAB post-faktum vasitəsilə).
Geytalar: testlər, təhlükəsizlik, uyğunluq, geri qaytarılabilirlik, buraxılış notları.
Texnikası: kanarya/mavi-yaşıl, fich bayraqları, mütərəqqi yuvarlanma, pik hadisələr üçün dondurma.
«go/no-go» meyarları: yaşıl SLO-view, burn-rate olmaması, geri dönüş pəncərəsinin ehtiyatı.
Check-list ilə məcburi post-reliz monitorinqi (30-60 dəqiqə).
7) Hadisələr və post-mortemlər
P1-P4 təsnifatı, temp SLA yeniləmələri (məsələn, P1: ≤ 10 dəq ilk yeniləmə, sonra 15-30 dəq).
ChatOps/insident-bot: status-səhifəsinə vahid kart, var-room, zamanlayıcılar, draft → publish.
Post-mortem ittihamsız: faktlar, kök səbəblər (olanlar, proses, insanlar), qarşısının alınması tədbirləri; dərc müddəti ≤ D + 5.
Tracking hərəkətləri: owner, müddət, ölçülə bilən effekt (SLO/gəlirin qolu).
8) Müşahidə və nəzarət
SLI/SLO: giriş, depozit, mərc → settl, çıxış; səhv büdcələri.
Qızıl siqnallar: latency, error, traffic, saturation; biznes SLI (auth-success, uğurlu bahislər).
Alerting: burn-rate, dedup/histerezis/kvotalar; runbook bağları.
Status-səhifələr: ictimai və daxili; tarix, lokalizasiya, planlı işlər.
Anomaliyalar: STL/CUSUM/CPD; kontekst (relizlər/bayraqlar/provayderlər).
9) Accessories və SoD
Ən kiçik imtiyazlar, JIT/PAM, audit hüquqlarının artırılması.
SoD/4-eyes: nəticələr, bonuslar, PSP-marşrutlaşdırma, PII ixracı.
Telemetriyaya giriş siyasəti: PII qadağası, tokenizasiya, geo-sərhədlər.
Rüblük hüquqlar və açarlar; cədvəl üzrə sirlərin rotasiyası.
10) toil azaldılması və avtomatlaşdırma
Avto-fəaliyyət kataloqu: PSP-feylover, fich deqradasiyası, lag üzrə avtoskeyl, PII ixrac bloku.
Guardrails ilə siyasətlər: limitlər, TTL, geri dönüş meyarları.
Self-service alətləri: buraxılış şablonları, daşbordlar, hesabat generatorları, planlı iş formaları.
Təkrarlanan işlərin normallaşdırılması → ROI ilə avtomatlaşdırılmış backloges.
11) Keyfiyyətə nəzarət və audit
KPI keyfiyyəti: MTTA/MTTR, vaxtında post-mortem%, şikayətlərə qədər tutulan insidentlərin nisbəti, status yeniləmələrinin dəqiqliyi, buraxılış intizamı (geri qaytarılmadan).
KRI risk: DLQ artımı, burn-rate müddəti prosesləri, PII-ixrac/SoD-pozuntuların sıçrayışı.
Audit-track: WORM jurnalları, siyasət versiyaları, status mesajları diffs.
Tənzimləyici hesabatlar: SLA KYC/AML/nəticələr, ödəniş əməliyyatlarının mövcudluğu, hadisələrin tarixi.
12) Təlim və sertifikatlaşdırma
Operatorların tanınması: baza SOP, alertinq, ChatOps, status-kommunikasiyalar.
Praktik təlimlər: P1 simulyasiyalar, DR-feylover, PSP-imtina.
Rolların sertifikatlaşdırılması: IC/CL/Domain Lead - imtahan/sertifikat 12 ay.
Materiallar: video, addım-addım simulyatorlar, test halları, FAQ.
13) Yetkinlik modeli (L1 → L5)
L1 Reaktiv: xaotik reaksiya, SLO yoxdur, əl buraxılışları.
L2 idarə: SOP/alert, CAB, status-səhifə, əsas SLO.
L3 Məhsuldar: ChatOps, burn-rate, kanarya relizləri, post-mortemlər.
L4 Preventiv: anomaliyalar, guardrails, FinOps paneli ilə avtomatik hərəkətlər.
L5 Özünü sağaldır: SLO-geyt relizləri, proqnozlaşdırıcı siqnallar, «zero-surprise» kommunikasiyalar.
14) Əməliyyat intizamının metrikası (KPI/KRI)
Rabitə intizamı: MTTA-Comms, yeniləmə intervallarına riayət, kanal uyğunsuzluğu = 0.
Proseslər: Kanarya sürüşmə ilə% relizlər, geri dönmə payı, orta «monitorinq vaxtı».
Etibarlılıq:% insidentlər sintetik/SLI, reaksiya əvvəl orta burn-rate aşkar edilmişdir.
Avtomatlaşdırma: auto-fix rate, operator olmadan yerinə yetirilən tapşırıqların payı.
Maliyyə: $/hadisə, $/RPS-də müşahidə, avtomatik tədbirlərdən qənaət.
Uyğunluq: SoD pozuntuları, gecikmiş KYC/AML/nəticələr, audit qüsurları.
15) Yol xəritəsi (6-10 həftə)
Ned. 1–2:- Cari proseslərin auditi, SLI/SLO kartı, SOP/siyasət reyestri, RACI rollarının təyinatı.
- Növbəli ötürmə və gündüz stand-up tətbiqi; minimum CAB.
- Status-səhifə və ChatOps-botun (MVP) işə salınması; ilk yeniləmələrin şablonları; burn-rate-alertlər.
- Sərt post-mortem şablon, nəşr müddəti ≤ D + 5.
- SLO-da Kanarya relizləri və buraxılış geytləri; guardrails ilə 5-7 avtomatik hərəkət kataloqu.
- FinOps müşahidə paneli; rüblük giriş/sirləri.
- P1 təlimləri (tabletop), DR/Feylover şablonları; SOP/runbooks uzantısı.
- Exec/Ops dashboard nizam-intizam metrikası; SLA statusu və komm-kadens.
- Alertinqin optimallaşdırılması (dedup/kvota/histerezis), saxta narahatlıqların azaldılması.
- IC/CL sertifikatlaşdırma; SoD/4-eyes qaydaları; Əməliyyat qaydbukunun nəşri.
16) Artefaktlar
Operational Handbook: prinsipləri, rolları, rituallar, metriklər, şablonlar.
SOP/Runbook Library: versioned, sahibləri və tarixi review ilə.
Change Policy & CAB Charter: meyarlar, formalar, geytalar, freeze-təqvim.
Incident Comms Kit: P1-P3 şablonları, lokalizasiya, ETA/ETR siyasəti.
Access/SoD Matrix: kim nə edə bilər, JIT/PAM, review dövrü.
Training & Certification Pack: planlar, testlər, yoxlama vərəqləri.
17) Antipattern
Gates və geri dönüş olmadan «naility» relizləri.
«Xam» metrik peycer, SLO/burn-rate yoxdur.
SOP «görünüş üçün» - yoxlama vərəqləri və icrasına nəzarət olmadan.
Post-mortem və hərəkətsiz hadisələr; sistemli dəyişikliklər əvəzinə günahkar axtarır.
PII log/dashboard/alert; SoD yoxdur.
Status səhifəsi və yeniləmə zamanlayıcıları olmayan monolit rabitə.
Yekun
Əməliyyat intizamı müxtəlif qaydalar toplusu deyil, təşkilatın iş rejimidir. SLO düşüncə, standartlaşdırılmış SOP/Runbook, dəyişiklik nizam-intizamı, müşahidə, ChatOps və guardrails ilə avtomatik hərəkətləri birləşdirərək, proqnozlaşdırıla bilən buraxılışlar, hadisələrə sürətli reaksiyalar, davamlı gəlir və tənzimləyicilərin tələblərinə uyğunluq əldə edirsiniz.