GH GambleHub

Операциялар және басқару → Оқыс оқиғаларды болжау

Оқыс оқиғаларды болжау

1) Бұл не үшін қажет

Оқыс оқиғалар сирек «еш жерден жарылады». Бас тарту алдында платформа сигналдар береді: p99 жылдам өсуі, error-бюджеттің баяу жануы, кезек лагтары, нақты даунстримде ретрациялардың өсуі, провайдер квоталарының жақындауы. Инциденттерді жүйелі түрде болжау реакцияны «өрт сөндіруден» «ерте араласуға» ауыстырады, MTTR, Change Failure Rate және түсімді жоғалтуды төмендетеді.

Мақсаттары:
  • Хабаршылардың үлгілерін анықтау және автоматты түрде профилактикалық іс-әрекеттерге бастамашылық ету.
  • Солға ығысу арқылы P1/P2 үлесін азайту (pre-incident detect rate).
  • Болжамдарды релиздер, фейловерлер және capacity-алдын алу процестеріне кірістіру.

2) Сигналдар картасы (lead indicators)

Платформа/инфра:
  • p95/p99 жылдамдығы (градиент), кідірістердің «қалдықтары», вариацияның өсуі.
  • Кезектер/ағындар: өсу 'lag' және оң туынды lag; HPA ең жоғары.
  • БД/кэш: 'active _ conns/max _ conns', 'replication _ lag', 'evictions', құлау 'cache _ hit'.
  • Желі: mTLS/handshake қателері, 5xx/timeout сыртқа.
Тәуелділіктер/провайдерлер:
  • 'outbound _ error _ rate '/' retry _ rate' нақты провайдерге, 'circuit _ open', 'quota _ usage> 0. 9`.
  • Провайдердің SLA: жоспарлы терезелер, тозулар.
Өнім/бизнес:
  • Аномальды жүктеме (науқандар/матчтар), RPS/TPS секірулері, өңірлер/арналардың ерекше араласуы.
  • Депозиттердің/мөлшерлемелердің конверсиясы p99 → квази-прокси оқиғалардың өсуі кезінде төмендейді.
SLO қабаты:
  • Burn-rate error-бюджет> табалдырығы (мысалы,> 4 × 10-15 минут ішінде).
  • Ұсақ SLO-ның жиі бұзылуы (микро-деградация) жақындап келе жатқан істен шығудың белгісі ретінде.

3) Деректер көздері мен витриналары

Онлайн-телееметрия: Prometheus/OTel (метрика, логи, трейстер).
Оқиғалар оқиғалары: тикеттер/мәртебелер/постмортемалар (таргет үшін ақиқат).
Жоспар/өзгерістер фактілері: релиздер, фичефлагтар, көші-қон, провайдерлердің терезелері.
Анықтамалықтар: тәуелділік картасы, квоталар, иелері.
DWH-суреттер: оқыту/валидациялау агрегаттары (синхронды терезе!).

Сапаға қойылатын талаптар: толықтығы ≥ 99%, TZ сағаттық/минуттық түзету, p95/p99 бірыңғай анықтамалары.

4) Болжау тәсілдері

4. 1 Параметрлік емес/ережелер (жылдам бастау)

Қысқа терезелер үшін 'deriv (p99)', 'z-score' өзгерту жылдамдығына шекті алерталар.
Композиттік шарттар: 'lag ↑ + HPA = max + circuit_open (to = «PSP-X»)'.
SLO-burn-гейттер: burn-rate> X. кезінде релизді/канареяны тоқтату.

4. 2 Аномалиялардың детекциясы

Seasonal baselines (STL/Prophet-ұқсас идеялар), rolling медиана + MAD.
Multivariate: бірлескен аномалия 'p99 + retry + open_circuit + quota'.
Change-point detection: CUSUM/BOCPD үрдістерді жылжытуға арналған.

4. 3 ML-модельдері (supervised)

«T + K оқиғасы?» сыныптамасы белгілер терезесі бойынша (мысалы, 10-30 минут бұрын).
Белгілері: статистика, туынды, маусымдық қалдықтар, one-hot провайдерлер/өңірлер, релиздердің жалаулары.

[t, t + K] аралығындағы 'incident {severity ∈ [P1, P2]}' белгілері.

Explainability: SHAP/Permutation importance сенімділік пен операциялық үшін.

4. 4 SRE-first гибриді

Модель → тәуекел скорингі (0-1) → әрекет саясаты (фичефлаги/фейловер/пред-скейл), сынға арналған HITL.

5) Белгілерді жобалау (feature engineering)

Жылжымалы терезелер (1/5/15 мин): mean, p95/p99, std, max, slope.
Салыстырмалы көрсеткіштер: 'p99/baseline _ 1d', 'error _ rate _ delta'.
Когорт фичтері: провайдер, аймақ, ойын/матч түрі, құрылғы арнасы.
«Жүктеме» фичтер: RPS, payload size, ашық WS саны.
Жүйелік: 'hpa _ desired/max', 'db _ conn _ ratio', 'redis _ evictions> 0'.
Оқиғалық жалаулар: «релиз жүріп жатыр», «10% канарейка», «провайдер терезесі».

6) Болжамдар мен әрекеттер механикасы

Шешім қабылдау тізбегі:

1. Домендер бойынша әрбір N секунд сайын тәуекел скорингі (Payments/Bets/Games/KYC).

2. Алерт саясаты:
  • ≥ тәуекелі 0. 8 + домен иесінің → page растайтын сигналдары;
  • 0. 6–0. 8 → ескерту + шаралар дайындау.
3. Автоқолданыс (safeguards):
  • пред-скейл (HPA minReplicas ↑), кэштерді қосу, ауыр функцияларды шектеу;
  • резервтік провайдерге/маршрутқа ауыстырып қосу;
  • канарейка пауза/роллбек;
  • «тар» даунстримге ретрайлардың лимиті.
  • 4. HITL: адам «бизнес мінез-құлқының өзгеруі» деңгейін растайды.

7) Күнделікті процестерге кірігу

Релиздер: канарейкалардағы болжамды гейттер («дейін/кейін» салыстыру және тәуекел-скоринг).
Фейловер: провайдер тәуекелі кезінде резервтік маршрутты автоматты түрде дайындау/жылыту.
Capacity: headroom құлағанда және лагтар өскенде «early uplift».
Хабарландыру: жеке «pre-incident» таспасы + дашбордтардағы аннотациялар.

8) Бақылау және дашбордтар

Risk Overview: домендер мен провайдерлер бойынша тәуекел, үрдістер, белгілер үлесі.
Lead Signals: top-N хабаршылар (градиент p99, lag, ашық брейкерлер).
Actions & Outcomes: қосылғаны, p95/error әсері, болдырмау оқиғалары.
Model Health: precision/recall/latency, drift белгілері, автоматты әрекет жиілігі.

9) Болжау сапасының метрикасы

Recall @P1/P2 (сыни инциденттер бойынша сезімталдық).
Precision («жалған пейджерлерден» аз).
Lead Time (медиана «фактіге дейін қанша минут»).
Intervention Win-rate (әрекет тәуекелді/шығындарды төмендеткен жағдайлардың үлесі).
Alert Fatigue Index (алерт/ауысым/адам).
Drift Score (стат. оқу кезеңінің vs белгілерінің бөлінуіндегі айырмашылықтар).

Әдепкі мақсаттар: Recall (P1) ≥ 0. 7, Precision ≥ 0. 6. Медианның Lead Time ≥ 8-10 мин.

10) Тәуекелдерді басқару моделі (ML Ops/Governance)

Деректерді/кодты/артефактілерді нұсқалау, жаңғыртылуы.
Champion/Challenger: жаңа модель параллельді, оффлайн/онлайн салыстыру.
Дрейф: PSI/KL-дивергенция, табалдырықтарды авто-қайта есептеу, «модель ескірген».
Explainability: әрбір шешім үшін белгілердің маңыздылығын және деректерге сілтемені сақтау.
Қауіпсіздік/этика: қолжетімділік, PII-бүркемелеу, саясаткерлердің автоқолданысын бақылау.

11) Ережелер мен саясаттың үлгілері

SLO-burn және канарейка (тұжырымдама):

policy:
if slo_burn_rate{service="payments"} > 4 for 10m and release_phase in ["canary", "post-deploy_30m"]:
action: pause_release_and_rollback notify: squad-payments
Провайдердің композиттік тәуекелі:

risk_psp_x = sigmoid(
1. 2z(outbound_p99_ms) +
1. 5z(outbound_error_rate) +
0. 8z(retry_rate) +
1. 0I(quota_usage>0. 9) +
0. 7I(circuit_open=1)
)
if risk_psp_x > 0. 8 for 5m -> route_to_psp_y + reduce_features
Стримингтегі Lag-дауыл:

if (consumer_lag > 5e6 and deriv(consumer_lag) > 5e4) and hpa_desired == hpa_max:
action: scale_consumers + throttle_producers + enable_batching

12) Енгізу чек-парағы (30-60 күн)

  • Оқиғалар бойынша сигналдар мен «ақиқаттар» каталогы (severity, таймлайндар).
  • Негізгі желілер және негізгі метриктер үшін маусымдық (шығарылғанға дейін/кейін).
  • Ерте сигнал беру ережелері (p99, lag, burn-rate градиенттері).
  • Risk/Lead Signals/Actions дашбордтары.
  • Фичефлагтармен/канарейкалармен интеграциялау, HPA алдын ала скейлі.
  • ML-жіктеуішінің ұшқышы бір доменде (мысалы, Payments).
  • HITL саясаты және автоқолдану журналы.
  • Сапа өлшемдері және дрейф/модель денсаулығына қауіп.

13) Қарсы үлгілер

«Хрусталь шарлар»: базалық сызықтары мен қарапайым ережелері жоқ күрделі ML-модель.
actionability жоқ: «жаман» деп болжаймыз, бірақ автоматты түрде ештеңе жасамаймыз.
Маусымдық игнор/оқиғалар күнтізбесі (матчтар/турнирлер) → жалған дабылдар.
Уақыт аймақтарын араластыру → дұрыс емес метрика/инцидент терезелері.
explainability → сенімсіздік жоқ, командалар алдын ала болжауды өшіреді.
Барлық домендерге/аймақтарға бірыңғай жаһандық шек → төмен дәлдік.

14) Домендердің ерекшелігі (iGaming)

Payments: провайдерлер/квоталар, өсу 'retry _ rate' және 'circuit _ open' → ерте фейловер.
Bets: коэффициенттерді жаңартудың кідіруі, WS-fan-out өсуі → хабар тарату лимиті.
Games/Live: қосылым жарылыстары, студия лимиттері → UI/кэштің тозуы.
KYC/AML: webhook кідірістері, тексеру кезектері → HITL және кейінге қалдырылған өңдеу.

15) Метрика және алерт мысалдары (идеялар)


ALERT PreIncidentRiskHigh
IF risk_score{domain="payments"} > 0. 8 FOR 5m
LABELS {severity="critical", team="payments"}

ALERT LeadSignalP99Slope
IF deriv(api_p99_ms{service="bets"}[5m]) > 15 AND api_p99_ms > baseline_1d 1. 2 FOR 10m
LABELS {severity="warning", team="bets"}

ALERT ProviderEarlyQuota
IF usage_quota_ratio{provider="psp_x"} > 0. 85 FOR 10m
LABELS {severity="info", team="integrations"}

ALERT StreamLagStorm
IF (kafka_consumer_lag{topic="ledger"} > 5e6 AND rate(kafka_consumer_lag[5m]) > 5e4)
AND hpa_desired == hpa_max FOR 10m
LABELS {severity="critical", team="streaming"}

16) Болжау бағдарламасының KPI

Pre-Incident Detect Rate (алдын алынған/жеңілдетілген инциденттердің үлесі).
Оқиғаға дейін Avg Lead Time.

Reduction in P1/P2 шаршы метр

MTTR (күтілгендей ↓ ерте контекст есебінен).
False Alarm Rate/Alert Fatigue (тұрақты ↓).
Cost Avoidance (алдын алынған шығындарды/айыппұлдарды/оверскейлді бағалау).

17) Жылдам бастау (рецепт)

1. p99/lag және SLO-burn градиент ережелерін қосыңыз;

2. Провайдерлер үшін композитті шарттарды қосыңыз;

3. Болжамды фичефлагтармен және алдын ала скейлмен байланыстыру;

4. «Болжау → әрекет → әсер» есебі;

5. ML ұшқышы бір доменде; Precision/Recall өсімінен кейін масштабтаңыз.

18) FAQ

Q: ML-сіз қайдан бастау керек?
A: Маусымдық базалық желілер + градиенттер + композиттік ережелер. Бұл қиындықсыз Recall-дың айтарлықтай өсімін береді.

Q: Фолс-позитивтерге қалай батпауға болады?
A: сигналдарды біріктіру, гистерезис және растау уақытын енгізу, per-домен/аймақ шегін теңшеу, Precision және Alert Fatigue бағалау.

Q: Бірінші автоматтандыру әрекеттері қандай?
A: Қауіпсіз және қайтарымды: алдын ала скейл, кэш/деградацияны қосу, канарейка пауза/роллбек, расталған сигналдар кезінде провайдерді ауыстырып қосу.

Contact

Бізбен байланысыңыз

Кез келген сұрақ немесе қолдау қажет болса, бізге жазыңыз.Біз әрдайым көмектесуге дайынбыз!

Telegram
@Gamble_GC
Интеграцияны бастау

Email — міндетті. Telegram немесе WhatsApp — қосымша.

Сіздің атыңыз міндетті емес
Email міндетті емес
Тақырып міндетті емес
Хабарлама міндетті емес
Telegram міндетті емес
@
Егер Telegram-ды көрсетсеңіз — Email-ге қоса, сол жерге де жауап береміз.
WhatsApp міндетті емес
Пішім: +ел коды және номер (мысалы, +7XXXXXXXXXX).

Батырманы басу арқылы деректерді өңдеуге келісім бересіз.