GH GambleHub

Хабарламалар мен ескертулер жүйесі

(Бөлім: Операциялар және Басқару)

1) Мақсаты және қағидаттары

Мақсаты - аз, бірақ дәл жеткізу: тек релевантты сигналдар, уақытылы және жауапты адамға/роботқа түсінікті next-step.

Принциптері:
  • Actionable by default: әрбір алерттің иесі, артықшылығы, реакция мерзімі және әрекет ету түймешігі бар.
  • SLO-first: алерттар еркін метриктердің айналасында емес, SLI/SLO айналасында құрылады.
  • Noise-control: дедуп, корреляциялар, дауылды басу.
  • Context-rich: метадеректер (өңір, тенант, нұсқа, trace_id) және рунбук сілтемесі.
  • Audit-ready: барлық тәуекелдер мен реакциялар квитацияланады және өзгермейтін журналда сақталады.

2) Сигнал көздері

Тех. телеметрия: қолжетімділік, p95/p99, error-rate, кезектердің артта қалуы, ресурстық лимиттер.
Бизнес-шаралар: PriceMismatch, WebhookLag, RTP Drift, фрод-сигналдар.
Қауіпсіздік/комплаенс: SoD-бұзушылықтар, PII-қолжетімділік, кілттерді/сертификаттарды экспирациялау.
Жоспарлаушы: тапсырмалардың мерзімі өткен SLA, DLQ-көшкін, retry-storms.

3) Жіктеу және басымдықтар

АртықшылықРеакцияМысалдар
P1 (SEV-0)дереу, 24 × 7Checkout қол жетімді емес, PII ағыны, PSP негізгі аймақтағы сәтсіздігі
P2 (SEV-1)≤ 30-60 минp95 өсуі, веб-хуктардың артта қалуы, провайдердің ішінара тозуы
P3 (SEV-2)жұмыс уақытыegress шығындарының тренді, ретрайлардың өсуі, квота каптарына жақындығы
Infoпейджингсізрелиз аяқталды, квота 80%, серт. N күннен кейін аяқталады

Guardrails: алгоритмдер SLO/бюджет қателеріне (burn rate) қатысты тұжырымдалады.

4) Роутинг және эскалация 24 × 7

Контекст бойынша роутинг: 'region/tenant/product/provider/severity'.
Эскалация сатысы: on-call инженер → командалық топ → Duty Manager → Exec/Legal (PII/қаржы үшін).
Кезекшілік: рөлдер бойынша ротация (SRE, App, Data, Security, Payments), резервтік байланыстар (чат/дауыс/SMS).
Тыныштық терезелері: түнгі, релиздік, маркетингтік; Р1 үшін ерекшеліктер.

5) Шуды азайту және корреляциялау

Дедупликация: бойынша '(fingerprint, region, tenant, route)' және 'trace _ id'.
«Дауыл» супрессиясы: белсенді Р1 кезінде телнұсқаларды уақытша басу.
Корреляциялар: негізгі себеп айналасындағы сигналдарды топтастыру (релиз/фича/провайдер).
Гистерезис: табалдырықтан кіру/шығу - «араны» болдырмау үшін әртүрлі.

6) Алерт мазмұны (үлгі)

Тақырып: қысқаша және нақты - «EU/Checkout: p95> 250ms (SLO breach)».
Негізгі өрістер: басымдық, уақыт, өңір, тенант, нұсқа, trace_id, affected%, кіру. себебі.
Қазір не істеу керек: бірінші 1-3 қадам + рунбук/батырмаларға сілтеме (Re-route, Rollback, Pause Promo).
Келесі коммуникация: N минуттан кейін, иесі (IC/он-колл).

7) Жеткізу арналары

Чат/мессенджер: триаждың негізгі арнасы (түймелері бар бот-карточкалар).
Пейджер/дауыс/SMS: P1 үшін.
Пошта: есептер және non-urgent (P3/Info).
Вебхактар: тикетингпен/оркестрмен интеграциялау.
Мәртебе-бет: клиенттер мен әріптестерді сыртқы хабардар ету.

8) Интеграция және «іс-қимыл түймелері»

Инцидент-бот: карточка жасайды, IC тағайындайды, бейнемост ашады, таймерлер басталады.
Руны (auto-actions): Re-route, Rollback, Raise Limit, Flush Cache, Disable Webhooks, Enable Safe Mode.
Құқықтары: рундарды іске қосу рөлдермен шектелген; барлық іс-әрекеттерге қол қойылады және логика жасалады.

9) Мультирегион және multi-tenant

Өңірлер бойынша тәуелсіз SLO/табалдырықтар; жергілікті қақтығыстар бүкіл әлемді «бояп» тұрған жоқ.
Көріну сүзгілері: серіктестер/тенанттар тек қана өздерін көреді.
Юрисдикциялық талаптар: хабарлама мәтіндері, тілдер, сағат белдеулері.

10) Саясат, кесте, тыныштық терезелері

Алерт саясаты: иелері, табалдырықтар, арналар, эскалациялар, шаблондар.
Күнтізбелер: жұмыс/жұмыс істемейтін уақыт, релиздік/маркетингтік терезелер.
Change freeze: ірі акциялар кезінде шектерді жұмсарту немесе «P1 емес» басу.

11) Аудит және заңдық белгілеу

Түбіртектер: сыни алерталар үшін - 'receipt _ hash' және DSSE-қолтаңба.
WORM журналдары: оқиғалар мен реакцияларды өзгеріссіз сақтау (кім не істегенін растады).
Chain-of-custody: эскалациялар мен шешімдерді трассалау.

12) Хабарламалар жүйесінің метрикасы мен SLO

MTTA (acknowledge): P1 ≤ 5-10 мин; P2 ≤ 30 мин.
Page rate/On-call load: ауысымға сигналдар - нысаналы диапазонда.
False Positive%: мақсатты шегінің ≤ (әдетте <10-15%).
Correlation efficiency: топтастырылған сигналдардың үлесі ≥ 80%.
Delivery SLO: сөйлесу ≥ 99. 9%, SMS/дауыс ≥ 99. 5%.
Time-to-Action: p95 алертадан рунаны іске қосуға.

13) Дашбордтар және репорттар

Жедел: белсенді инциденттер, burn-rate, өңірлер/тенанттар картасы, алерталар кезегі.
Алерт сапасы: шу, FP, табалдырықтың ретесттері, «үнсіз аймақтар».
On-call жүктемесі: пейджерлердің жиілігі, реакция уақыты, «out of hours».
Пост-инцидент: руна тиімділігі, себептердің қайталануы.

14) iGaming/финтех ерекшелігі

Payments/PSP: P1 - провайдердің істен шығуы, авторизация істен шығуының өсуі; авто-роут резервтік PSP.
RTP & Limits: бақыланатын RTP дрейфіне алерта, лимиттерден асып кету, ұтыстардың күдікті үлгілері.
Аффилиаттар/вебхактар: жеткізу мерзімі, қосарланудың өсуі, расталған түбіртектердің құлдырауы.
Price/FX/Tax: витринаның checkout сәйкессіздігі, артефактілер нұсқаларының рассинхроны.
Жауапты ойын: RG-триггерлер және олардың/Compliance қолдау уақытылы эскалациясы.

15) RACI

АумақRACI
Сәулет және табалдырықтарSRE/PlatformHead of EngProduct, DataБарлығы
Эскалация/кезекшілікIR TeamCOOHR, SecurityManagement
Хабарлар мен үлгілерComms/SupportCOOLegal/ComplianceСеріктестер
Аудит/түбіртекComplianceCCOSecurity, DataAudit
Ойнатқыштар/ЖүндерSRE & OwnersCTOProduct, IntegrationsБарлығы

16) Енгізу чек-парағы

  • North-Star және SLI/SLO; алгоритмдерді burn-rate-мен байланыстыру.
  • Саясат каталогын енгізу: табалдырықтар, арналар, эскалациялар, тыныштық терезелері.
  • Дедуп, корреляциялар, гистерезис, дауылды басу.
  • Мультирегионалдық және multi-tenant көріну ережелерін баптау.
  • Әрекеттер түймешіктері мен рунбуктерді қосу; іске қосу құқығын шектеу.
  • WORM/түбіртектерді, trace_id трассировкасын және run-аудитті қосу.
  • Сапа дашбордтарын құру (noise, FP, MTTA, page rate).
  • Провести GameDay: PSP outage, WebhookLag, PriceMismatch, RTP Drift.
  • Табалдырықты үнемі қайта қарау; A/B шектері «мылқау» метриктерде.
  • Ай сайын on-call жүктеме және жақсарту бойынша есеп.

17) Плейбуктер (референс)

PSP Outage (P1): резервке авто-роут, клиенттердің таймауттарының төмендеуі, «сұр» транзакциялар карантині, статус-апдейт 15 минуттан кейін.
WebhookLag (P2): воркерлер/батч ұлғайту, кезектердің басымдығы, міндетті емес эндпоинттердің уақытша үзілісі.
PriceMismatch (P1/P2): кэштің форс-мүгедектігі, салыстыру 'fx _ version/tax _ rule _ version', артефактының қайтарылуы, өтемақы.
RTP Drift (P2): бонустар/промо үзілісі, профиль аудиті, бақылау терезесін кеңейту.
Security: SoD/MFA fail (P1/P2): операцияны бұғаттау, JIT-қайта тексеру, форензия және қажет болған жағдайда Legal.

18) FAQ

Жалған іске қосылуларды қалай азайтуға болады?
SLO-бағытталған ережелер, корреляциялар, гистерезис, оқыту терезелері және табалдырықтарды үнемі қайта қарау.

Не маңыздырақ - қамту немесе дәлдік?
P1 үшін - дәлдік және жылдамдық (жақсы, бірақ сыни). P3 үшін - трендтер мен құнды қамту.

Телефон пейджингі қажет пе?
Иә, P1 үшін; сөйлесу қол жеткізгісіз немесе «тұйықталған» болуы мүмкін.

On-call командасын қалай «жағуға» болмайды?
page rate лимиттері, жүктемелерді қайта бөлу, «follow-the-sun», шудың ай сайынғы шуы.

Түйіндеме: Ескертулер мен ескертулер жүйесі - бұл белгіден әрекетке басқарылатын конвейер. Оны SLO-да жасаңыз, шуды сөндіріңіз, контекст бойынша бағыттаңыз, әрекет түймелерін беріңіз және бәрін заңды түрде белгілеңіз. Осылайша сіз MTTA-ны қысқартасыз, on-call-тен жүктемені алып тастайсыз және провайдерлердің күрт көтерілулері мен істен шығулары кезінде де бизнестің тұрақтылығын арттырасыз.

Contact

Бізбен байланысыңыз

Кез келген сұрақ немесе қолдау қажет болса, бізге жазыңыз.Біз әрдайым көмектесуге дайынбыз!

Telegram
@Gamble_GC
Интеграцияны бастау

Email — міндетті. Telegram немесе WhatsApp — қосымша.

Сіздің атыңыз міндетті емес
Email міндетті емес
Тақырып міндетті емес
Хабарлама міндетті емес
Telegram міндетті емес
@
Егер Telegram-ды көрсетсеңіз — Email-ге қоса, сол жерге де жауап береміз.
WhatsApp міндетті емес
Пішім: +ел коды және номер (мысалы, +7XXXXXXXXXX).

Батырманы басу арқылы деректерді өңдеуге келісім бересіз.