GH GambleHub

Реалдуу убакытта алерталар

1) Максаты жана принциптери

Максаты: керектүү адамдарга/системаларга SLO, киреше жана комплаенс коркунучун туудурган окуялар жөнүндө өз убагында, так жана даректүү кабарлоо жана туура аракеттерди (кол менен/автоматтык) баштоо.
Принциптер: SLO-first, ызы-чууну азайтуу, түшүндүрүү, контекст, бизнес таасири боюнча артыкчылыктуу, "бир сигнал - бир түшүнүктүү аракет".


2) Сигналдардын таксономиясы

SLO-сигналдар: критикалык жолдор боюнча бурн-rate бюджет каталар (логин, депозиттик, чен, чыгаруу).
KRI: тобокелдиктин алгачкы көрсөткүчтөрү (PSP банк/GEO боюнча auth-success төмөндөшү, consumer-lag өсүшү, p99 ↑).
Events: көз карандылык Flap, өлтүргүч, кол которуштуруу, коргоону ишке киргизүү (rate-limit, WAF).
Коопсуздук/комплаенс: сезгич иш, PII экспорттоо, SoD бузуулар.


3) деңгээл жана SLA эскертүүлөр

ДеңгээлМисалКаналРеакцияSLA биринчи жооп
P1Аймакта жеткиликтүү эмес депозиттер/чендер, PII агыпPager (Call/Push), нөөмөтчү var-roomТоктоосуз auto-аракеттер + on-call≤ 5 мин
P2p99 күчтүү деградация, PSP маселеси банктардын бөлүгүндөPager/артыкчылыктуу чатТерезеге кийлигишүү≤ 15 мин
P3Жергиликтүү деградация/айланма жол барЧат/тикетПландуу оңдоо≤ 60 мин
P4Билдирүүлөр/тенденцияларТикет/почтаТалдоо/планГрафик боюнча

4) Булактары жана контексттин корреляциясы

Телеметрия: метрика/соода/логи, синтетика жана RUM.
Каталогдор: CMDB/кызматы-mapa, ээлери, көз карандылык.
Өзгөртүүлөр: Releases, fichflages, көчүрүү, пландаштырылган иш.
Тышкы провайдерлер: PSP/KYC/оюн студиялары/CDN/WAF статустары.
Ар бир кооптонуу байыйт: жакын жерде эмне өзгөрдү? (релиз/fichflag), кандай көз карандылыктар кызыл?, кайсы сегмент таасир этет? (GEO/PSP/банк/тенант).


5) SLO-Alerting эрежелери (негизги)

Burn-rate: эки терезе (тез 1h жана жай 6-24h). Пейджер - бир эле учурда ашып гана.
Guardrails: p99/error-rate босоголору SLO ордуна гана контексттик талдоо триггерлери катары кызмат кылат.
Impact: баа "аудиториянын үлүшү × акча/мин × жөнгө салуучу" → P1-P4 деңгээл.


6) Ызы-чууну басуу

Дедупликация: сервис/тенант/себеп боюнча топтоо; бир окуяны ондогон сигналдардын ордуна

Гистерезис: N-из-M тастыктоо, аномалиянын минималдуу узактыгы.
Шилтемелер/музыка: пландаштырылган иш, белгилүү окуялар, "күн-артынан" терезелер.
Рейт-лимиттер жана квоталар: булакка/лейблге/тенантка; "бороондон" коргоо.
кардиналдуулугун азайтуу: тыюу userId/sessionId алерт-лейблдер.


7) Багыттоо жана эскалация

Контекстке ылайык роутинг: домен (Payments/Games/Core), айлана-чөйрө (prod/этап), аймак, оордук.
Эскалация: t0 - on-call L1; t0 + X - L2/домен ээси; t0 + Y - IC/колдонмо. Убакыт X/Y P1-P3 көз каранды.
каналдар боюнча кайталоо: pager + P1 боюнча чат; P3 чаты/билети.
Смена: контекст auto-берүү (timeline, аткарылган иш-аракеттер, гипотезалар).


8) Auto-аракеттер (auto-remediation)

Төлөмдөр: PSP которуу ден соолук × fee × conversion, банктардын чектөө/ыкмалары, Retra менен Jitter.
Оюндар/коюмдар: Кэш-wedge/write-ишин чектөө, алдыңкы queue-page/waiting-room кирет.
Infra: жол көчүрүү, деградациялоочу Worker кайра баштоо, lag масштабдоо.
Коопсуздук/комплаенс: PII экспортту убактылуу жабуу, P1 операциялары үчүн кош контролду киргизүү.
Ар кандай авто-аракет - кайтаруу саясаты жана кайтаруу критерийлери менен.


9) Runbook-биринчи тажрыйбасы

Ар бир алерт runbook менен байланышкан: максаты, тез диагностика (3-5 текшерүү), fix/кайра кадам, байланыш адамдар, dashboard шилтемелер жана статус-бет. Чатта/пейджерде биз иш-аракеттердин кыскача картасын көрсөтөбүз.


10) On-call саясаты

24 × 7 айлануу, домендерди жабуу (Payments/Game Core/SRE).
"Second on-call" P1 үчүн, war-room эки адамдын эрежеси.
Quiet-hours жана аймактар ​ ​ боюнча күзөт терезелери (күн).
Окутуу: чейректик машыгуу (tabletop/game-day), shadow-өзгөрүүлөр.
Пост-окуя кредиттер (comp-убакыт) чарчап калбаш үчүн.


11) Интеграция

Инцидент-менеджмент: авто-түзүү карталары, жаңыртылган ленталар, IC/CL ролдору, таймерлер.
Статус-бет: P1/P2 жарыялоо (Comms Lead аркылуу) үлгүлөрү жана локализациясы менен.
Релиздер: SLI, auto-stop/rollback боюнча release-gates.
Каталогдор: ээлери, CMDB, байланыш провайдерлери.


12) Alert мисалдар (iGaming)

1. Auth-success PSP-1 TR ↓ 25% 10 мин

P2 → P1> 30% бүтүмдөрдү камтыйт.
Авто-аракет: PSP-2/3 трафигин кайра бөлүштүрүү; жөнөкөйлөтүлгөн 3DS кирет; alert Partner Manager.

2. p99 "коюм → сеттл"> 3 ЕБ × ченемдер

Себептери: lag репликация, воркерлер кезеги.
Auto-иш-аракет: scale-out воркерлер, warmup кэш, убактылуу өчүрүү эмес-маанилүү чүчүкулак.

3. Export PII spikes

P1 тикет/бекитүү жок болсо.
Auto-аракет: Block чыгаруу, Compliance эскертүү, SoD текшерүү.


13) Алертинг сапаты (KPI/KRI)

MTTA-Comms/MTTA-Ops: жооп/биринчи аракет чейин убакыт.
Precision/Recall, False Alarm Rate.
Lead-time SLO бузууга чейин, TTD (аныктоо убактысы).
Pager fatigue: alertov/адам/жума., түнкү чалуулар, "бош" пайызы.
Auto-fix rate: адамсыз авто-жооп менен жабылган көйгөйлөрдүн үлүшү.
Aging: P3/P4> X күн илинип үлүшү.


14) Наркты башкаруу

Квоталар алерт/булактарга, ашыкча этикеткаларды кесип.
Downsampling жана жыйындысы метриктер, sampling жолдор; класстар боюнча.
Үзгүлтүксүз cost-review: $/alert, $/SLI-dashboard, "оор" сериясы.


15) Купуялык жана комплаенс

Текстте PII жок алерттер жана лейблдер; идентификаторлорду белгилөө.
Access Policy (RBAC/ABAC), Алерт конфигурациясында SoD.
Аудит эрежелерди өзгөртүү, версиялоо, тесттер жана дифф.


16) Жол картасы киргизүү (6-10 жума)

Нед. 1-2: SLI/KRI каталогу, ээлеринин картасы, P1-P4 деңгээли, биринчи SLO эрежелери (burn-rate).
Нед. 3-4: dedup/histeresis/sailans, окуя системасы жана чаттар менен бириктирүү, runbook байланыштар.
Нед. 5-6: Payments/Queues үчүн auto аракеттер, release-gates, статус-бет fid.
Нед. 7-8: контекст (релиздер/физфлагдар/провайдерлер), PSP жылуулук карталары × банк × GEO, P1/P2 машыгуулары.
Нед. 9-10: FinOps alerting, KPI-дашборддор, босоголорду жана квоталарды кайра карап чыгуу, он-колла окутуу.


17) Артефакттар жана үлгүлөр

Alert Spec: метрика/шарт, терезелер, басуу, ээси, runbook, auto-аракет.
Routing Map: домен → канал → эскалация, резервдик байланыштар.
Silence Policy: музыка эрежелери (пландаштырылган/белгилүү окуялар), ким камтышы мүмкүн.
On-call Handbook: айлануу, өзгөртүү, чек P1/P2, каналдар.
Post-Incident Pack: Download/убакыт сызыктары, сигналдардын сапатын талдоо.


18) Антипаттерндер

SLO → ызы-чуу жана чарчоо жок "чийки" p95/p99 пейджер.
бир нерсе жөнүндө сигналдар ондогон (эч кандай бабасы/корреляция).
Runbook же ээси жок Алерт.
"Ташта" босогосу сезондук/сегментациясыз (GEO/PSP/банк/саат).
Авто-иш-аракеттерден кийин кайтарымсыз (roll-back критерийлери жок).
PII жана userId менен этикеткалар → тобокелдиктер жана кардиналдык жарылуу.


Жыйынтык

Чынында пайдалуу алертинг - бул SLO-борбордук конвейер: бурн-рате менен контексттик эрежелер, акылдуу ызы-чууну басуу, так роутинг жана эскалация, runbook биринчи тажрыйбасы жана коопсуз автоматтык иш-аракеттер. Мындай контур колдонуучулардан мурда маанилүү окуяларды кармап, MTTRди азайтат, кирешени коргойт жана ошол эле учурда ал-коллду "пейджер-тозок" адатынан сактап калат.

Contact

Биз менен байланышыңыз

Кандай гана суроо же колдоо керек болбосун — бизге кайрылыңыз.Биз дайым жардам берүүгө даярбыз!

Интеграцияны баштоо

Email — милдеттүү. Telegram же WhatsApp — каалооңузга жараша.

Атыңыз милдеттүү эмес
Email милдеттүү эмес
Тема милдеттүү эмес
Билдирүү милдеттүү эмес
Telegram милдеттүү эмес
@
Эгер Telegram көрсөтсөңүз — Emailден тышкары ошол жактан да жооп беребиз.
WhatsApp милдеттүү эмес
Формат: өлкөнүн коду жана номер (мисалы, +996XXXXXXXXX).

Түшүрүү баскычын басуу менен сиз маалыматтарыңыздын иштетилишине макул болосуз.