GH GambleHub

Автоматтык каталарды оңдоо

1) Максаты жана принциптери

Максаты: MTTR кыскартуу жана SLO, киреше жана талаптарга жооп сактоо менен окуяларды алдын алуу.

Принциптери:
  • SLO-first: auto-аракеттер гана бюджети ката коркунуч тастыкталган учурда жол берилет.
  • Коопсуздук биринчи кезекте: минималдуу blast-radius, айкын чектер жана тайм-бокстар.
  • Explainable by design: ар бир иш-аракет түшүнүктүү жана угулат.
  • Rollback даярдыгы: ар бир кадам кайтаруу критерийлери менен коштолот.
  • Тобокелдик жогору болгон жерде Human-in-the-loop: P1-критикалык өзгөрүүлөр - эки тараптуу көзөмөл же IC/on-coll тастыктоо аркылуу (эгерде саясатта башкача белгиленбесе).

2) Терминдер

Auto-remediation: адам катышуусуз окуяга программалык жооп (алерт/аномалия).
Guardrails: чектөө саясаты (босого, узактыгы, аракет саны, таасир зонасы).
Runbook-Action: алдын ала/пост-текшерүү жана кайра чыгаруу менен атомдук операция.
Decision Engine: саясатчылар менен окуяны салыштырып, иш-аракеттерди баштайт кызмат.

3) Архитектуралык чечим

1. Сигналдар: SLO/burn-rate, KRI, синтетика, RUM, deep-health.
2. Контексттин корреляциясы: релиздер, фичфлагдар, пландуу иштер, көз каранды провайдерлер.
3. Decision Engine: эрежелер/саясат (саясат-as-code), таасир баалоо жана тобокелдик, сценарий тандоо.
4. Аткаруу: Runbook иш-аракеттердин оркестратор (Идемпотенттик, Джиттер менен Retry).
5. Control: алдын ала валидаторлор, пост-текшерүүчүлөр, таймбокс, артка кайтаруу.
6. Аудит жана байкоо: иш-аракет, ийгилик метрика, журнал (WORM/immutable).
7. Communications: статус-бет (аркылуу Comms Lead), war-room, макрос саппорт.

4) Саясат жана уруксат (policy-as-code)

Шарттардын мисалдары (псевдо-Rego/логика): Failover PSP:
  • `allow if burn_rate(payments. auth) > fast && impact>threshold && psp_alt. healthy && within_limits("psp_reroute")`
Degrade Non-Critical Features:
  • `allow if p99(bet_settlement)>3x && queue_lag>limit && feature("replay_center"). enabled`
Autoscale by Lag:
  • `allow if consumer_lag>target && cost_budget. ok && region_capacity. available`
Block PII Exports:
  • `allow if export_spike && no_ticket && data_class=PII -> action=block + notify(Compliance)`

Ар бир саясат төмөнкүлөрдү камтыйт: шарт, аракет, лимит (убакыт/убакыт/жыштык), ийгиликтин критерийлери, артка кайтаруу.

5) коопсуз иш-аракеттер каталогу (атомдук runbook-actions)

Төлөмдөр: трафикти альтернативдүү PSP/банкка өткөрүү; health × fee × conversion роутинг артыкчылыктарын өзгөртүү; жөнөкөйлөтүлгөн 3DS кирет; життер менен ретрациялардын чектерин жогорулатуу.
Коюмдар/оюндар: сеттл воркерлерин масштабдоо; cache-warmup кирет; критикалык эмес чыпкаларды (анимациялар, экинчилик фиддер) убактылуу өчүрүү; waiting-room/queue-page кирет.
Инфраструктура: деградациялоочу үлгүлөрдү алуу (outlier-detector), трафикти коңшу АЗ/аймакка эвакуациялоо; көлмө/квоталарды көбөйтүү; линт текшерүүлөр менен воркерлерди кайра баштоо.
Маалыматтар/кезектер: партияларды кайра бөлүштүрүү; керектөөчүлөрдү көтөрүү; дени сак реплика окуу-жол которуу; ылайыкташтырылган трасса sampling кирет.
Коопсуздук/комплаенс: убактылуу текшерүү жок PII экспорттук бөгөт коюу; корутундулардын velocity-лимиттерин күчөтүү; сезгич иш боюнча эки контролдоо кирет.
Comm катмары: auto-долбоору статусу + Slots Comms Lead үчүн апдейт; PSP деградациясында өнөктөштөргө билдирүү.

6) Алдын ала жана пост-валидация

Мурунку:
  • көйгөй реалдуу жана жаңы экенин текшерүү (N-из-M терезелер; жок/пландуу иштер).
  • иш-аракет саясат тарабынан уруксат берилген жана ресурстук бюджет бар экенин текшерип.
  • Баа наркы (FinOps) жана комплаенс-чектөөлөр.
Post:
  • burn-rate/метриканын төмөндөшүн ырастоо; натыйжасын жазуу; шарттарга ылайык кайтарууну (auto-rollback) пландаштыруу.

7) Rollback и “escape hatch”

метр турукташтыруу жана max-TTL иш аркылуу Auto-кайтуу.
var-room-жылы IC/on-call үчүн Артка баскычы.
Break-glass өзгөчө кирүү үчүн гана; милдеттүү пост-аудит.

8) Alerting жана окуялар менен бириктирүү

Ар кандай auto-аракет окуя картасына тиркелет: ким/эмне/качан/эмне үчүн, натыйжа, графиктерге шилтемелер.
Пейджер дубликаттар үчүн угулат, бирок ийгиликсиз авто-фикстер үчүн эмес (эскалация).
Статус-бет үлгү боюнча Comms Lead аркылуу жаңыланат.

9) Коопсуздук жана комплаенс дизайн

Оркестратор үчүн эң аз артыкчылыктар; аракет/домен үчүн жеке ролдору.
Жогорку тобокелдик үчүн SoD жана кош көзөмөл: PSP-роутинг, бонустардын лимиттери, PII экспорту.
WORM аудит/бардык автоматтык чечимдерди immutable, анын ичинде кирүү сигналдары жана саясат версиялары.
PII-гигиена: этикеткаларда жана иш-аракеттер логдорунда жеке идентификаторлору жок.

10) Auto-контур байкоо

Metrics: success-rate иш-аракеттер, жооп убактысы,% артка, MTTR үнөмдөө, SLO таасир.
Traces: "сигнал → чечим → иш-аракет → таасир".
Логи: структураланган, policy_id, версиялар жана алдын ала/кийин текшерүүлөр менен.
Dashbord: Exec (киреше таасири/SLO), Ops (иш-аракет матрицасы × домендер), FinOps (авто-чаралардын баасы).

11) Script мисалдар (iGaming)

11. 1 PSP-деградация (TR/EU)

Сигнал: auth-success PSP-1 ↓ 25% 10 мүнөт ичинде, камтуу> 30% бүтүмдөр.
Иш-аракеттер: жол кыймылынын 40% PSP-2/3; жөнөкөйлөтүлгөн 3DS кирет; X банктын життер менен болгон суроо-талаптарынын ретрациясын көтөрүү.
Чектери: бир башка PSP жалпы трафиктин 60% ашык эмес; TTL 45 мин.
Rollback: 15 мүнөттүн ичинде максаттуу ≥ success-rate нормалдаштыруу менен.

11. 2 Сеттл коюм боюнча p99 өсүшү

Сигнал: p99 "bet → settle"> 3 × ченемдер + керектөөчү-лаг> босого.
Иш-аракеттер: scale-out workers чейин cap; катышы кэш жылытуу; "кайталоо тарыхын" убактылуу өчүрүү.
Rollback: кийин headroom> X жана p99 нормалдуу 20 мүнөт.

11. 3 БДнын репликасы артта

Сигнал: replication-lag> N секунд, lock-wait өсүшү.
Иш-аракеттер: дени сак реплика боюнча Read-traffic алып; төмөнкү артыкчылыктуу throttling write-иш кирет.
Rollback: lag нормалдаштыруу жана ката кулпу кийин.

11. 4 Спайк экспорттук PII

Сигнал: экспорттун баасы> K × базалык сызык, эч кандай билеттер.
Иш-аракеттер: экспорттук блок, Compliance эскертүү, кош контролдоо киргизүү.
Rollback: суроо-талаптарды тастыктоо жана аномалияларды жабуу кийин.

12) KPI и KRI

MTTR ↓ auto fix иштеген окуялар үчүн.
TTD → иш-аракет: иш-аракет аткарууга детекторунун убакыт.
Success-rate иш-аракеттер жана Rollback-rate (төмөн - жакшы, анткени туура эмес аткаруулар жок болсо).
False-action rate.
SLO таасир сакталган (мүнөт/киреше, айып алдын алуу).
Pager fatigue ↓ (Ошол эле/мыкты SLO аз кол чалуу).

13) Жол картасы киргизүү (8-12 жума)

Нед. 1-2: тандоо 3-5 жогорку ROI (PSP-Feylover, autoscale lag, feature-degrade); саясатты/лимиттерди/кайтарымдарды сүрөттөө.
Нед. 3-4: иш-оркестр ишке ашыруу, сырлар жана ролдору, окуя-платформа менен бириктирүү; байкоо жана аудит кошуу.
Нед. 5-6: "көмүскө" режиминде учкуч (simulate-only) → A/B-баа берүү таасири; андан кийин чакан камтуу менен продукт кирет.
Нед. 7-8: сценарийлер каталогун кеңейтүү (DB/кэш/кезек/фронт), статус-бет жана Comms менен байланыштыруу.
Нед. 9-10: FinOps-лимиттеринин эрежелерин кошуу (баасы/SLI), жогорку тобокелдик үчүн кош контролду киргизүү.
Нед. 11-12: tabletop/chaos-машыгуулар, KPI/KRI кайра карап чыгуу, колдонмону жарыялоо жана он-колла окутуу.

14) Артефакттар жана үлгүлөр

Auto-Remediation Policy: шарт, аракет, лимиттер, TTL, артка, ээси, тобокелдик-класс.
Runbook-Action Spec: алдын ала сөз, кадамдар, текшерүүлөр, каталар, мониторинг, кайтаруу логикасы.
Change-Control: ким саясат, PR-review, тесттер, дифф жана нускасын башкара алат.
Evidence Pack: SLO боюнча Логи/Traces/таасир метрика, Post-Мортем/аудит үчүн отчет.

15) Антипаттерндер

себебин текшерүү жана SLO жок "симптом мамиле" → чаап.
Артка кайтарылбаган жана TTL → тоңуп калган деградациялар.
guardrails → каскаддык каталар жок жалпы скрипттер.
Аудит жана саясат чыгаруу жоктугу.
Нарк (лимитсиз автоскейл) жана комплаенс (PII-экспорт).
P1-тобокелдиктерде Human-in-the-loop жок толук автономия.

Жыйынтык

Автоматтык каталарды оңдоо башкарылуучу контур болуп саналат: SLO сигналдары → guardrails менен саясат → артка кайтуу менен коопсуз runbook аракеттери → байкоо жана аудит → инциденттерди окутуу. Бул ыкма MTTR өлчөмдүү азайтат, жогорку кирешелерди сактап жана коопсуздук жана жөнгө салуу талаптарына шайкеш бойдон on-call менен күнүмдүк иш алып салат.

Contact

Биз менен байланышыңыз

Кандай гана суроо же колдоо керек болбосун — бизге кайрылыңыз.Биз дайым жардам берүүгө даярбыз!

Telegram
@Gamble_GC
Интеграцияны баштоо

Email — милдеттүү. Telegram же WhatsApp — каалооңузга жараша.

Атыңыз милдеттүү эмес
Email милдеттүү эмес
Тема милдеттүү эмес
Билдирүү милдеттүү эмес
Telegram милдеттүү эмес
@
Эгер Telegram көрсөтсөңүз — Emailден тышкары ошол жактан да жооп беребиз.
WhatsApp милдеттүү эмес
Формат: өлкөнүн коду жана номер (мисалы, +996XXXXXXXXX).

Түшүрүү баскычын басуу менен сиз маалыматтарыңыздын иштетилишине макул болосуз.