Операциялық тәртіпті басқару
1) Мақсаты және саласы
Операциялық тәртіп - бұл платформаның күнделікті жұмысының болжамдылығына, қауіпсіздігіне және тиімділігіне кепілдік беретін ережелер, әдеттер мен құралдар жиынтығы. iGaming үшін бұл түсімге (депозиттер/ставкалар), реттеушілік сәйкестікке (KYC/AML/RG) және беделге (SLO, статус-коммуникация) тікелей әсер етеді.
2) Қағидаттар
1. SLO-first: шешімдер қол жетімділік/сапа мақсаттарын ескере отырып қабылданады.
2. Standard Work: барлық сыни SOP сипатталған және чек-парақтармен тексеріледі.
3. Қате - жүйенің белгісі: инциденттер «кінәлілерді іздеуге» емес, жақсартуға әкеледі.
4. Ең аз қажетті артықшылықтар және SoD: міндеттерді бөлу және дәлелдеу.
5. Дағдыны автоматтандыру, қалғанын стандарттау.
6. Ашықтық: бақылау, статус-беттер, ашық метриктер.
7. Өзгерістердің шағын батчалары: қысқа циклдар, қайтымдылық, канареялық релиздер.
3) Рөлдер және жауапкершілік (RACI)
Head of Ops/SRE - пән, бюджет, саясат иесі.
Service Owners (домендік лидерлер) - SLI/SLO, өзгерістер, тәуекелді бағалау.
On-call/IC (кезекші) - жедел шешімдер, эскалациялар.
Comms Lead - сыртқы/ішкі жаңартулар, мәртебе беттері.
Change Manager - релиздер мен өзгерістер процесін сақтау.
QA/Compliance/Security - SoD бақылау, аудиттер, реттеуіш.
Training Lead - операторларды оқыту, сертификаттау.
4) Құжаттама қаңқасы
SOP: қадамдық рәсімдер (іске қосу/тоқтату, жоспарлы жұмыстар, PSP-фейловер, қаражатты шығару).
Runbooks: алгоритм бойынша жылдам әрекеттер (диагностика/фикс/кері шегіну).
Саясат: SoD, қолжетімділік (RBAC/ABAC), change-management, пост-мортемалар, логтарды сақтау.
Чек-парақтар: pre-flight шығару/жұмыс алдында; post-checks кейін.
Каталогтар: иелері, провайдерлердің байланыстары, CMDB, SLI → SLO сәйкестігі.
5) Ритуалдар мен циклдар
Ауысым сайын:- ауысымдық беру (10-15 мин), инциденттерге/алерттерге/жоспарлы жұмыстарға шолу; кезекші дашбордтарды тексеру.
- stand-up Ops/SRE (15 мин): burn-rate, «ыстық» кезектер, тәуекел терезелері.
- 30-45 минутқа change-board (CAB): релиздер/жұмыстар жоспары, тәуекелдер/көші-қон.
- review алертинг: жалған/өткізіп алған, шектерді түзету.
- пост-мортем клубы: топ-инциденттерді талдау, жақсарту бойынша іс-қимылдар.
- FinOps-шолу: бақылау/инфра құны, оңтайландыру тиімділігі.
- P1 (tabletop/game-day) оқу-жаттығулары, DR/фейловерді тексеру, SLO-ны қайта қарау.
6) Өзгерістерді басқару (Change Management)
Сыныптар: Standard (алдын ала мақұлданған), Normal (CAB арқылы), Emergency (IC/CL арқылы және CAB постфактум).
Гейттер: тесттер, қауіпсіздік, комплаенс, қайтарымдылық, релиз-ноталар.
Техникалар: канареялық/blue-green, фич-жалаушалар, прогрессивті тегістеулер, ең жоғары оқиғаларға арналған мұздатулар.
«go/no-go» критерийлері: жасыл түстегі SLO-вью, burn-rate болмауы, кері қайтару терезесінің резерві.
Чек парағы бар міндетті пост-релиздік мониторинг (30-60 мин).
7) Инциденттер және пост-мортемалар
P1-P4, temp SLA апдейтінің жіктелуі (мысалы, P1: ≤ 10 мин бірінші апдейт, одан әрі 15-30 мин).
ChatOps/инцидент-бот: бірыңғай карточка, вар-рум, таймерлер, draft → publish.
Айыптаусыз пост-мортем: фактілер, негізгі себептер (тех, процесс, адамдар), алдын алу шаралары; жариялау мерзімі ≤ D + 5.
Әрекеттердің трекингі: owner, мерзімі, өлшенетін әсері (SLO/түсім тұтқасы).
8) Бақылау және бақылау
SLI/SLO: логин, депозит, ставка → сеттл, шығару; қате бюджеттері.
Алтын сигналдар: latency, error, traffic, saturation; бизнес-SLI (auth-success, табысты ставкалар).
Алертинг: burn-rate, дедуп/гистерезис/квота; runbook байламдары.
Мәртебе-беттер: көпшілік және ішкі; тарих, оқшаулау, жоспарлы жұмыстар.
Аномалиялар: STL/CUSUM/CPD; контекст (релиздер/жалаулар/провайдерлер).
9) Қолжетімділік және SoD
Ең аз артықшылықтар, JIT/PAM, аудиттелетін құқықтарды арттыру.
SoD/4-eyes: қорытындылар, бонустар, PSP-роутинг, PII экспорты.
Телеметрияға қол жеткізу саясаты: PII тыйым салу, токенизация, гео-шекара.
Құқықтар мен кілттерді тоқсан сайын реву; кесте бойынша құпияларды алмастыру.
10) toil төмендету және автоматтандыру
Авто-әрекеттер каталогы: PSP-фейловер, фич деградациясы, lag бойынша автоскейл, PII экспорт блогы.
guardrails саясаты: лимиттер, TTL, қайтару критерийлері.
Self-service құралдары: релиздер үлгілері, дашбордтар, есеп генераторлары, жоспарлы жұмыс нысандары.
Қайталанатын жұмыстарды нормалау → ROI бар автоматтандырылған бэклогтар.
11) Сапаны бақылау және аудит
Сапа KPI: MTTA/MTTR, мерзімінде пост-мортемалар%, шағымдарға дейін ұсталған инциденттердің үлесі, статус жаңартуларының дәлдігі, релиздердің тәртібі (кері қайтарусыз).
KRI тәуекел: DLQ өсуі, burn-rate процестердің шектен тыс, PII-экспорттың/SoD-бұзушылықтардың жарылысы.
Аудит-ізі: WORM-журналдар, саясаттардың нұсқалары, мәртебе хабарламаларының диффалары.
Реттеуші есептер: SLA KYC/AML/қорытындылар, төлем операцияларының қолжетімділігі, оқыс оқиғалар тарихы.
12) Оқыту және сертификаттау
Операторлардың онбордингі: базалық SOP, алертинг, ChatOps, статус-коммуникация.
Практикалық жаттығулар: P1 симуляция, DR-фейловер, PSP-істен шығу.
Рөлдерді сертификаттау: IC/CL/Domain Lead - емтихан/сертификат 12 ай.
Материалдар: видео, қадамдық симуляторлар, тест-кейстер, FAQ.
13) Жетілу моделі (L1 → L5)
L1 Реактивті: хаотикалық реакция, SLO жоқ, қол релиздері.
L2 Басқарылатын: SOP/алерттар, CAB, статус-бет, базалық SLO.
L3 Өнімді: ChatOps, burn-rate, канар релиздері, пост-мортемалар.
L4 Алдын алу: аномалиялар, guardrails, FinOps панелі бар автоматты әрекеттер.
L5 Өзін-өзі сауықтыратын: SLO-релиздер гейттері, болжамды сигналдар, «zero-surprise» коммуникациялар.
14) Операциялық пән өлшемдері (KPI/KRI)
Коммуникация тәртібі: MTTA-Comms, апдейт аралықтарын сақтау, арналар айырмашылығы = 0.
Процестер: канареялық домалатумен релиздер%, қайтару үлесі, орташа «мониторингтегі уақыт».
Сенімділік: оқыс оқиғалар% синтетика/SLI, реакцияға дейін орташа burn-rate.
Автоматтандыру: auto-fix rate, операторсыз орындалған тапсырмалардың үлесі.
Қаржы: $/инцидент, $/RPS бақылау, авто-шаралардан үнемдеу.
Комплаенс: SoD-бұзушылықтар, кешіктірілген KYC/AML/қорытындылар, аудит-ақаулар.
15) Енгізудің жол картасы (6-10 апта)
Нед. 1–2:- Ағымдағы процестердің аудиті, SLI/SLO-карта, SOP/саясат тізілімі, RACI рөлдерін тағайындау.
- Ауысымдық беру және күндізгі стенділерді енгізу; ең аз CAB.
- Статус-бетті және ChatOps-ботты (MVP) іске қосу; бірінші жаңартулардың үлгілері; burn-rate-алерта.
- Пост-мортемалардың қатты үлгісі, жариялау мерзімі ≤ D + 5.
- SLO бойынша канареялық релиздер мен релиз-гейттер; guardrails бар 5-7 auto-әрекеттер каталогы.
- FinOps бақылау тақтасы; қол жетімділіктің/құпиялардың тоқсандық реві.
- P1 (tabletop) оқу-жаттығулары, DR/фейловер үлгілері; SOP/runbooks кеңейтімі.
- Exec/Ops дашбордтарындағы пән өлшемдері; SLA мәртебесі мен комкаденциясы.
- Алертингті оңтайландыру (дедуп/квота/гистерезис), жалған дабылдарды азайту.
- IC/CL сертификаттау; SoD/4-eyes регламенті; операциялық гайдбукті жариялау.
16) Артефактілер
Operational Handbook: қағидаттар, рөлдер, ритуалдар, метриктер, үлгілер.
SOP/Runbook Library: versioned, иелері мен күндерімен review.
Change Policy & CAB Charter: критерийлер, пішіндер, гейттер, freeze-күнтізбесі.
Incident Comms Kit: P1-P3 үлгілері, локализация, ETA/ETR саясаты.
Access/SoD Matrix: кім не істей алады, JIT/PAM, ревю кезеңі.
Training & Certification Pack: жоспарлар, тесттер, чек парақтары.
17) Антипаттерндер
Гейтсіз және қайтарымдылықсыз релиздер.
«Шикі» метриктер бойынша пейджер, SLO/burn-rate жоқ.
SOP «түрі үшін» - чек-парақтарсыз және орындалуын бақылаусыз.
Пост-мортемасыз және әрекеттерсіз оқыс оқиғалар; жүйелік өзгерістердің орнына кінәлілерді іздеу.
логтардағы/дашбордтардағы/алерталардағы PII; SoD болмауы.
Статус-беті және апдейт таймері жоқ біртұтас коммуникация.
Жиынтығы
Операциялық тәртіп - бұл бытыраңқы регламенттер жинағы емес, ұйымның жұмыс режимі. SLO ойлау, стандартталған SOP/Runbook, өзгеріс тәртібі, бақылау, ChatOps және guardrails автоматты әрекеттерді біріктіру арқылы сіз болжамды релиздерді, оқиғалардың жылдам реакцияларын, тұрақты табысты және реттегіш талаптарға сәйкестігін дәлелдейді.