GH GambleHub

Операциялар жана башкаруу → Инциденттерди алдын ала айтуу

Окуяларды алдын ала айтуу

1) Эмне үчүн керек

Окуялар сейрек "жок жерден жарылат". Платформадан баш тартуу алдында сигналдар берилет: p99 тездетилген өсүшү, эррор-бюджеттин жай күйүп кетиши, кезек күтүүлөр, белгилүү бир даунстрим боюнча ретрациялардын өсүшү, провайдердин квоталарынын жакындашы. Инциденттерди системалуу алдын ала айтуу реакцияны "өрттү өчүрүүдөн" "эрте кийлигишүүгө" которуп, MTTR, Change Failure Rate жана кирешенин жоголушун азайтат.

Максаттары:
  • Алдын алуучулардын үлгүлөрүн аныктоо жана автоматтык түрдө профилактикалык иш-аракеттерди баштоо.
  • солго жылышы менен P1/P2 үлүшүн азайтуу (алдын ала окуя detect rate).
  • Releases жараяндарга божомолдорду киргизүү, Failover жана capacity-алдын алуу.

2) Сигнал картасы (лидер көрсөткүчтөр)

Платформа/инфра:
  • тездетүү p95/p99 (градиент), "куйруктары" кечигүү, өсүш өзгөрүүлөр.
  • кезек/агым: өсүшү 'lag' жана оң туунду lag; HPA максималдуу.
  • BD/кэш: 'active _ conns/max _ conns', 'replication _ lag', 'evictions', 'cache _ hit'.
  • Тармак: mTLS/handshake каталар, 5xx/timeout өсүшү.
Көз карандылык/провайдерлер:
  • 'outbound _ error _ rate '/' retry _ rate' белгилүү бир провайдерге, 'circuit _ open', 'quota _ usage> 0. 9`.
  • Провайдердин SLA: пландаштырылган терезелер, деградациялар.
Продукт/бизнес:
  • Аномалдуу жүк (кампаниялар/матчтар), RPS/TPS секирүү, аймактардын/каналдардын адаттан тыш аралашмалары.
  • Депозиттер/чендердин конверсиясы p99 → квази-прокси окуясынын өсүшү менен төмөндөйт.
SLO катмары:
  • Burn-rate error-бюджет> босого (мисалы,> 4 × 10-15 мин ичинде).
  • SLO тез-тез майда бузулуулар (микро-деградация) жакындап келе жаткан мүчүлүштүктүн белгиси катары.

3) Маалымат булактары жана витриналары

Online Teleemetry: Prometheus/OTel (метрика, Логи, соода).
Окуялар: тикеттер/статустар/постмортемалар (максаттуу үчүн чындык).
План/өзгөртүү фактылары: релиздер, фичефлагдар, миграция, провайдерлердин терезелери.
Колдонмолор: көз карандылык картасы, квота, ээлери.
DWH-сүрөттөр: окуу/валидация үчүн агрегаттар (синхрондуу терезе!).

Сапат талаптары: толук ≥ 99%, сааттык/мүнөттүк TZ тегиздөө, бирдиктүү аныктамалар p95/p99.

4) болжолдоо ыкмалары

4. 1 параметрлери/эрежелери (тез баштоо)

Өзгөрүү ылдамдыгы боюнча босого алерталар: 'deriv (p99)', кыска терезелер үчүн 'z-score'.
Композиттик шарттар: 'lag ↑ + HPA = max + circuit_open (to = "PSP-X")'.
SLO-BURN-ГЕЙТТЕРИ: BURN-RATE> X.

4. 2 Аномалиялардын детекциясы

Seasonal baselines (STL/Prophet окшош идеялар), rolling median + MAD.
Multivariate: биргелешкен аномалия 'p99 + retry + open_circuit + quota'.
Change-point detection: CUSUM/BOCPD тенденцияларды өзгөртүү үчүн.

4. 3 ML-моделдер (supervised)

Классификация "T + K окуя?" белгилери боюнча (мисалы, 10-30 мүнөт мурун).
Белгилери: статистика, туунду, сезондук калдыктар, бир-Hot провайдерлер/региондор, релиздердин желектери.
Tags: 'incident {severity ∈ [P1, P2]}' интервалында [t, t + K].
Explainability: ишеним жана иштөө үчүн SHAP/Permutation importance.

4. 4 SRE-биринчи гибрид

Модель → тобокелдик эсеби (0-1) → иш-аракеттер саясаты (ficheflagy/feylover/pre-skeyl), сын үчүн HITL менен.

5) Дизайн белгилери (feature engineering)

Жылма терезелер (1/5/15 мин): mean, p95/p99, std, max, slope.
Салыштырмалуу көрсөткүчтөр: 'p99/baseline _ 1d', 'error _ rate _ delta'.
Когорт чүчүкулак: провайдер, аймак, оюн/матч түрү, аппарат каналы.
"Жүктөө" Ficks: RPS, PayLoad Size, ачык WS саны.
Системалык: 'hpa _ desired/max', 'db _ conn _ ratio', 'redis _ evictions> 0'.
Иш-чаранын желектери: "релиз", "канарейка 10%", "терезе провайдери".

6) Алдын ала механика жана иш-аракеттер

Чечим кабыл алуу чынжырчасы:

1. Ар бир N Seconds домендери боюнча тобокелдик эсеби (Payments/Bets/Games/KYC).

2. Алерт саясаты:
  • тобокелдик ≥ 0. 8 + тастыктоочу сигналдар → домен ээсинин page;
  • 0. 6–0. 8 → эскертүү + чараларды даярдоо.
3. Auto жардам (safeguards):
  • pre-скейл (HPA minReplicas ↑), кэш кошуу, оор функцияларды чектөө;
  • резервдик провайдерге/маршрутка өтүү;
  • тыныгуу/rollbek канарейка;
  • "тар" даунстримге ретрайлардын чеги.
  • 4. HITL: адам "бизнес жүрүм-турумун өзгөртүү" деъгээлинде чараларды тастыктайт.

7) Күнүмдүк процесстерге интеграция

Релиздер: канарейка боюнча алдын ала гейтс (салыштыруу "чейин/кийин" жана тобокелдик-эсеби).
Фейловер: провайдердин тобокелчилигинде резервдик маршрутту автоматтык түрдө даярдоо/жылытуу.
Capacity: "early uplift" жыгылганда headroom жана өсүш лагдар.
Эскертүүлөр: өзүнчө лента "алдын ала окуя" + дашбордддордо аннотациялар.

8) Байкоо жана дашборддор

Risk Overview: домендер жана провайдерлер боюнча тобокелдик, тенденциялар, белгилердин салымы.
Lead Signals: Top-N кабарчылар (градиент p99, lag, ачык брейкер).
Actions & Outcomes: p95/error таасири, жокко окуя.
Model Health: precision/recall/latency, drift белгилер, автожыштык.

9) Алдын ала сапатын өлчөө

Recall @P1/P2 (оор окуялар боюнча сезгичтик).
Precision (аз "жалган пейджер").
Lead Time (медиа "чындыкка чейин канча мүнөт").
Интервенция Win-rate (иш-аракеттер тобокелдикти/чыгымдарды азайткан учурларда үлүшү).
Alert Fatigue Index (alert/нөөмөт/адам).
Drift Score (стат. окуу мезгилине каршы белгилердин бөлүштүрүлүшүнүн айырмачылыктары).

демейки максаттары: Recall (P1) ≥ 0. 7, Precision ≥ 0. 6, Lead Time медиа ≥ 8-10 мин.

10) Тобокелдиктерди башкаруу модели (ML Ops/Governance)

Маалыматтарды/кодду/артефакттарды версиялоо, кайталоо.
Champion/Challenger: жаңы модель параллелдүү, offline/онлайн салыштыруу.
Дрейф: PSI/KL-дивергенция, босоголорду авто-кайра эсептөө, "эскирген модель".
Explainability: ар бир чечим үчүн маанилүү белгилер жана маалымат шилтемени сактоо.
Коопсуздук/этика: жеткиликтүүлүк, PII-жашыруу, саясатчылардын өз ара аракеттенүүсүн көзөмөлдөө.

11) Эрежелердин жана саясатчылардын мисалдары

SLO-burn жана канарейка (түшүнүк):

policy:
if slo_burn_rate{service="payments"} > 4 for 10m and release_phase in ["canary", "post-deploy_30m"]:
action: pause_release_and_rollback notify: squad-payments
Провайдердин композиттик тобокелдиги:

risk_psp_x = sigmoid(
1. 2z(outbound_p99_ms) +
1. 5z(outbound_error_rate) +
0. 8z(retry_rate) +
1. 0I(quota_usage>0. 9) +
0. 7I(circuit_open=1)
)
if risk_psp_x > 0. 8 for 5m -> route_to_psp_y + reduce_features
агымында Lag-бороон:

if (consumer_lag > 5e6 and deriv(consumer_lag) > 5e4) and hpa_desired == hpa_max:
action: scale_consumers + throttle_producers + enable_batching

12) Чек-тизме киргизүү (30-60 күн)

  • Окуялар боюнча сигналдар жана "чындык" каталогу (severity, таймлайндар).
  • Негизги көрсөткүчтөр үчүн негизги сызыктар жана сезондук (бошотулганга чейин/кийин).
  • Эрте сигналдардын эрежелери (p99 градиенттер, lag, burn-rate).
  • Dashboard Risk/Lead Signals/Actions.
  • Ficheflags/канарейка менен бириктирүү, HPA алдын ала скейлинг.
  • Бир домендеги ML классификаторунун учкучу (мисалы, Payments).
  • HITL саясаты жана Auto-аракет журналы.
  • Сапаттын көрсөткүчтөрү жана дрейф/ден соолук модели боюнча алерталар.

13) Анти-үлгүлөрү

"Кристалл шарлар": негизги сызыктары жана жөнөкөй эрежелери жок татаал ML модели.
Жок actionability: "жаман" алдын ала, бирок автоматтык түрдө эч нерсе жок.
Ignor сезондук/календардык окуялар (дан/турнир) → жалган тынчсыздануулар.
убакыт аралаштыруу → туура эмес терезелер метрика/окуялар.
Жок explainability → ишенбөөчүлүк, командалар тарабынан алдын ала өчүрүү.
Бардык домендер/региондордо бирдиктүү глобалдык босого → төмөн тактык.

14) Домендердин өзгөчөлүгү (iGaming)

Payments: провайдерлер/квоталар, өсүш 'retry _ rate' жана 'circuit _ open' → эрте feylover.
Bets: тактоо катышы кечигүү, WS-күйөрман-аута өсүшү → берүүлөрдүн чеги.
Games/Live: туташуу жарылып, студия чеги → UI/кэш деградация.
KYC/AML: webhook кечигүү, текшерүү кезектери → HITL жана кечигип иштетүү.

15) Метриктердин жана алерталардын мисалдары (идеялар)


ALERT PreIncidentRiskHigh
IF risk_score{domain="payments"} > 0. 8 FOR 5m
LABELS {severity="critical", team="payments"}

ALERT LeadSignalP99Slope
IF deriv(api_p99_ms{service="bets"}[5m]) > 15 AND api_p99_ms > baseline_1d 1. 2 FOR 10m
LABELS {severity="warning", team="bets"}

ALERT ProviderEarlyQuota
IF usage_quota_ratio{provider="psp_x"} > 0. 85 FOR 10m
LABELS {severity="info", team="integrations"}

ALERT StreamLagStorm
IF (kafka_consumer_lag{topic="ledger"} > 5e6 AND rate(kafka_consumer_lag[5m]) > 5e4)
AND hpa_desired == hpa_max FOR 10m
LABELS {severity="critical", team="streaming"}

16) KPI болжолдоо программалары

Pre-Incident Detect Rate (Алдын алынган/жумшартылган инциденттердин үлүшү).
окуя чейин Avg жетектөөчү убакыт.
Reduction in P1/P2 кв/кв.
MTTR (күтүлгөн ↓ улам алгачкы контекстинде).
False Alarm Rate/Alert Fatigue (туруктуу ↓).
Cost Avoidance (Алдын алынган жоготууларды/айыптар/оверскейлди баалоо).

17) Fast Start (рецепт)

1. p99/lag жана SLO-burn боюнча градиент эрежелерин киргизүү;

2. Провайдерлер үчүн композиттик шарттарды кошуу;

3. Ficheflags жана алдын ала скейлдер менен алдын ала байланыш;

4. Отчет "алдын ала → аракет → таасир";

5. бир доменде ML учкуч; Precision/Recall өсүшүнөн кийин масштабдаңыз.

18) FAQ

Q: ML жок башталат?
A: Сезондук базалык сызыктар + градиенттер + композиттик эрежелер. Бул кыйынчылыксыз Recall олуттуу өсүш берет.

Q: Кантип элдик оң чөгүп жок?
A: сигналдарды айкалыштыруу, histeresis жана ырастоо убактысын киргизүү, per-domain/аймак босогосун тууралоо, Precision жана Alert Fatigue баалоо.

Q: Биринчи автоматташтыруу иш-аракеттери кандай?
A: Коопсуз жана кайтарылуучу: алдын ала скейл, кэш/деградация, тыныгуу/rollbek канарейка, тастыкталган сигналдар менен провайдерди которуу.

Contact

Биз менен байланышыңыз

Кандай гана суроо же колдоо керек болбосун — бизге кайрылыңыз.Биз дайым жардам берүүгө даярбыз!

Telegram
@Gamble_GC
Интеграцияны баштоо

Email — милдеттүү. Telegram же WhatsApp — каалооңузга жараша.

Атыңыз милдеттүү эмес
Email милдеттүү эмес
Тема милдеттүү эмес
Билдирүү милдеттүү эмес
Telegram милдеттүү эмес
@
Эгер Telegram көрсөтсөңүз — Emailден тышкары ошол жактан да жооп беребиз.
WhatsApp милдеттүү эмес
Формат: өлкөнүн коду жана номер (мисалы, +996XXXXXXXXX).

Түшүрүү баскычын басуу менен сиз маалыматтарыңыздын иштетилишине макул болосуз.