Автоматтык каталарды оңдоо
1) Максаты жана принциптери
Максаты: MTTR кыскартуу жана SLO, киреше жана талаптарга жооп сактоо менен окуяларды алдын алуу.
Принциптери:- SLO-first: auto-аракеттер гана бюджети ката коркунуч тастыкталган учурда жол берилет.
- Коопсуздук биринчи кезекте: минималдуу blast-radius, айкын чектер жана тайм-бокстар.
- Explainable by design: ар бир иш-аракет түшүнүктүү жана угулат.
- Rollback даярдыгы: ар бир кадам кайтаруу критерийлери менен коштолот.
- Тобокелдик жогору болгон жерде Human-in-the-loop: P1-критикалык өзгөрүүлөр - эки тараптуу көзөмөл же IC/on-coll тастыктоо аркылуу (эгерде саясатта башкача белгиленбесе).
2) Терминдер
Auto-remediation: адам катышуусуз окуяга программалык жооп (алерт/аномалия).
Guardrails: чектөө саясаты (босого, узактыгы, аракет саны, таасир зонасы).
Runbook-Action: алдын ала/пост-текшерүү жана кайра чыгаруу менен атомдук операция.
Decision Engine: саясатчылар менен окуяны салыштырып, иш-аракеттерди баштайт кызмат.
3) Архитектуралык чечим
1. Сигналдар: SLO/burn-rate, KRI, синтетика, RUM, deep-health.
2. Контексттин корреляциясы: релиздер, фичфлагдар, пландуу иштер, көз каранды провайдерлер.
3. Decision Engine: эрежелер/саясат (саясат-as-code), таасир баалоо жана тобокелдик, сценарий тандоо.
4. Аткаруу: Runbook иш-аракеттердин оркестратор (Идемпотенттик, Джиттер менен Retry).
5. Control: алдын ала валидаторлор, пост-текшерүүчүлөр, таймбокс, артка кайтаруу.
6. Аудит жана байкоо: иш-аракет, ийгилик метрика, журнал (WORM/immutable).
7. Communications: статус-бет (аркылуу Comms Lead), war-room, макрос саппорт.
4) Саясат жана уруксат (policy-as-code)
Шарттардын мисалдары (псевдо-Rego/логика): Failover PSP:- `allow if burn_rate(payments. auth) > fast && impact>threshold && psp_alt. healthy && within_limits("psp_reroute")`
- `allow if p99(bet_settlement)>3x && queue_lag>limit && feature("replay_center"). enabled`
- `allow if consumer_lag>target && cost_budget. ok && region_capacity. available`
- `allow if export_spike && no_ticket && data_class=PII -> action=block + notify(Compliance)`
Ар бир саясат төмөнкүлөрдү камтыйт: шарт, аракет, лимит (убакыт/убакыт/жыштык), ийгиликтин критерийлери, артка кайтаруу.
5) коопсуз иш-аракеттер каталогу (атомдук runbook-actions)
Төлөмдөр: трафикти альтернативдүү PSP/банкка өткөрүү; health × fee × conversion роутинг артыкчылыктарын өзгөртүү; жөнөкөйлөтүлгөн 3DS кирет; життер менен ретрациялардын чектерин жогорулатуу.
Коюмдар/оюндар: сеттл воркерлерин масштабдоо; cache-warmup кирет; критикалык эмес чыпкаларды (анимациялар, экинчилик фиддер) убактылуу өчүрүү; waiting-room/queue-page кирет.
Инфраструктура: деградациялоочу үлгүлөрдү алуу (outlier-detector), трафикти коңшу АЗ/аймакка эвакуациялоо; көлмө/квоталарды көбөйтүү; линт текшерүүлөр менен воркерлерди кайра баштоо.
Маалыматтар/кезектер: партияларды кайра бөлүштүрүү; керектөөчүлөрдү көтөрүү; дени сак реплика окуу-жол которуу; ылайыкташтырылган трасса sampling кирет.
Коопсуздук/комплаенс: убактылуу текшерүү жок PII экспорттук бөгөт коюу; корутундулардын velocity-лимиттерин күчөтүү; сезгич иш боюнча эки контролдоо кирет.
Comm катмары: auto-долбоору статусу + Slots Comms Lead үчүн апдейт; PSP деградациясында өнөктөштөргө билдирүү.
6) Алдын ала жана пост-валидация
Мурунку:- көйгөй реалдуу жана жаңы экенин текшерүү (N-из-M терезелер; жок/пландуу иштер).
- иш-аракет саясат тарабынан уруксат берилген жана ресурстук бюджет бар экенин текшерип.
- Баа наркы (FinOps) жана комплаенс-чектөөлөр.
- burn-rate/метриканын төмөндөшүн ырастоо; натыйжасын жазуу; шарттарга ылайык кайтарууну (auto-rollback) пландаштыруу.
7) Rollback и “escape hatch”
метр турукташтыруу жана max-TTL иш аркылуу Auto-кайтуу.
var-room-жылы IC/on-call үчүн Артка баскычы.
Break-glass өзгөчө кирүү үчүн гана; милдеттүү пост-аудит.
8) Alerting жана окуялар менен бириктирүү
Ар кандай auto-аракет окуя картасына тиркелет: ким/эмне/качан/эмне үчүн, натыйжа, графиктерге шилтемелер.
Пейджер дубликаттар үчүн угулат, бирок ийгиликсиз авто-фикстер үчүн эмес (эскалация).
Статус-бет үлгү боюнча Comms Lead аркылуу жаңыланат.
9) Коопсуздук жана комплаенс дизайн
Оркестратор үчүн эң аз артыкчылыктар; аракет/домен үчүн жеке ролдору.
Жогорку тобокелдик үчүн SoD жана кош көзөмөл: PSP-роутинг, бонустардын лимиттери, PII экспорту.
WORM аудит/бардык автоматтык чечимдерди immutable, анын ичинде кирүү сигналдары жана саясат версиялары.
PII-гигиена: этикеткаларда жана иш-аракеттер логдорунда жеке идентификаторлору жок.
10) Auto-контур байкоо
Metrics: success-rate иш-аракеттер, жооп убактысы,% артка, MTTR үнөмдөө, SLO таасир.
Traces: "сигнал → чечим → иш-аракет → таасир".
Логи: структураланган, policy_id, версиялар жана алдын ала/кийин текшерүүлөр менен.
Dashbord: Exec (киреше таасири/SLO), Ops (иш-аракет матрицасы × домендер), FinOps (авто-чаралардын баасы).
11) Script мисалдар (iGaming)
11. 1 PSP-деградация (TR/EU)
Сигнал: auth-success PSP-1 ↓ 25% 10 мүнөт ичинде, камтуу> 30% бүтүмдөр.
Иш-аракеттер: жол кыймылынын 40% PSP-2/3; жөнөкөйлөтүлгөн 3DS кирет; X банктын життер менен болгон суроо-талаптарынын ретрациясын көтөрүү.
Чектери: бир башка PSP жалпы трафиктин 60% ашык эмес; TTL 45 мин.
Rollback: 15 мүнөттүн ичинде максаттуу ≥ success-rate нормалдаштыруу менен.
11. 2 Сеттл коюм боюнча p99 өсүшү
Сигнал: p99 "bet → settle"> 3 × ченемдер + керектөөчү-лаг> босого.
Иш-аракеттер: scale-out workers чейин cap; катышы кэш жылытуу; "кайталоо тарыхын" убактылуу өчүрүү.
Rollback: кийин headroom> X жана p99 нормалдуу 20 мүнөт.
11. 3 БДнын репликасы артта
Сигнал: replication-lag> N секунд, lock-wait өсүшү.
Иш-аракеттер: дени сак реплика боюнча Read-traffic алып; төмөнкү артыкчылыктуу throttling write-иш кирет.
Rollback: lag нормалдаштыруу жана ката кулпу кийин.
11. 4 Спайк экспорттук PII
Сигнал: экспорттун баасы> K × базалык сызык, эч кандай билеттер.
Иш-аракеттер: экспорттук блок, Compliance эскертүү, кош контролдоо киргизүү.
Rollback: суроо-талаптарды тастыктоо жана аномалияларды жабуу кийин.
12) KPI и KRI
MTTR ↓ auto fix иштеген окуялар үчүн.
TTD → иш-аракет: иш-аракет аткарууга детекторунун убакыт.
Success-rate иш-аракеттер жана Rollback-rate (төмөн - жакшы, анткени туура эмес аткаруулар жок болсо).
False-action rate.
SLO таасир сакталган (мүнөт/киреше, айып алдын алуу).
Pager fatigue ↓ (Ошол эле/мыкты SLO аз кол чалуу).
13) Жол картасы киргизүү (8-12 жума)
Нед. 1-2: тандоо 3-5 жогорку ROI (PSP-Feylover, autoscale lag, feature-degrade); саясатты/лимиттерди/кайтарымдарды сүрөттөө.
Нед. 3-4: иш-оркестр ишке ашыруу, сырлар жана ролдору, окуя-платформа менен бириктирүү; байкоо жана аудит кошуу.
Нед. 5-6: "көмүскө" режиминде учкуч (simulate-only) → A/B-баа берүү таасири; андан кийин чакан камтуу менен продукт кирет.
Нед. 7-8: сценарийлер каталогун кеңейтүү (DB/кэш/кезек/фронт), статус-бет жана Comms менен байланыштыруу.
Нед. 9-10: FinOps-лимиттеринин эрежелерин кошуу (баасы/SLI), жогорку тобокелдик үчүн кош контролду киргизүү.
Нед. 11-12: tabletop/chaos-машыгуулар, KPI/KRI кайра карап чыгуу, колдонмону жарыялоо жана он-колла окутуу.
14) Артефакттар жана үлгүлөр
Auto-Remediation Policy: шарт, аракет, лимиттер, TTL, артка, ээси, тобокелдик-класс.
Runbook-Action Spec: алдын ала сөз, кадамдар, текшерүүлөр, каталар, мониторинг, кайтаруу логикасы.
Change-Control: ким саясат, PR-review, тесттер, дифф жана нускасын башкара алат.
Evidence Pack: SLO боюнча Логи/Traces/таасир метрика, Post-Мортем/аудит үчүн отчет.
15) Антипаттерндер
себебин текшерүү жана SLO жок "симптом мамиле" → чаап.
Артка кайтарылбаган жана TTL → тоңуп калган деградациялар.
guardrails → каскаддык каталар жок жалпы скрипттер.
Аудит жана саясат чыгаруу жоктугу.
Нарк (лимитсиз автоскейл) жана комплаенс (PII-экспорт).
P1-тобокелдиктерде Human-in-the-loop жок толук автономия.
Жыйынтык
Автоматтык каталарды оңдоо башкарылуучу контур болуп саналат: SLO сигналдары → guardrails менен саясат → артка кайтуу менен коопсуз runbook аракеттери → байкоо жана аудит → инциденттерди окутуу. Бул ыкма MTTR өлчөмдүү азайтат, жогорку кирешелерди сактап жана коопсуздук жана жөнгө салуу талаптарына шайкеш бойдон on-call менен күнүмдүк иш алып салат.