Хабарламалар мен ескертулер жүйесі
(Бөлім: Операциялар және Басқару)
1) Мақсаты және қағидаттары
Мақсаты - аз, бірақ дәл жеткізу: тек релевантты сигналдар, уақытылы және жауапты адамға/роботқа түсінікті next-step.
Принциптері:- Actionable by default: әрбір алерттің иесі, артықшылығы, реакция мерзімі және әрекет ету түймешігі бар.
- SLO-first: алерттар еркін метриктердің айналасында емес, SLI/SLO айналасында құрылады.
- Noise-control: дедуп, корреляциялар, дауылды басу.
- Context-rich: метадеректер (өңір, тенант, нұсқа, trace_id) және рунбук сілтемесі.
- Audit-ready: барлық тәуекелдер мен реакциялар квитацияланады және өзгермейтін журналда сақталады.
2) Сигнал көздері
Тех. телеметрия: қолжетімділік, p95/p99, error-rate, кезектердің артта қалуы, ресурстық лимиттер.
Бизнес-шаралар: PriceMismatch, WebhookLag, RTP Drift, фрод-сигналдар.
Қауіпсіздік/комплаенс: SoD-бұзушылықтар, PII-қолжетімділік, кілттерді/сертификаттарды экспирациялау.
Жоспарлаушы: тапсырмалардың мерзімі өткен SLA, DLQ-көшкін, retry-storms.
3) Жіктеу және басымдықтар
Guardrails: алгоритмдер SLO/бюджет қателеріне (burn rate) қатысты тұжырымдалады.
4) Роутинг және эскалация 24 × 7
Контекст бойынша роутинг: 'region/tenant/product/provider/severity'.
Эскалация сатысы: on-call инженер → командалық топ → Duty Manager → Exec/Legal (PII/қаржы үшін).
Кезекшілік: рөлдер бойынша ротация (SRE, App, Data, Security, Payments), резервтік байланыстар (чат/дауыс/SMS).
Тыныштық терезелері: түнгі, релиздік, маркетингтік; Р1 үшін ерекшеліктер.
5) Шуды азайту және корреляциялау
Дедупликация: бойынша '(fingerprint, region, tenant, route)' және 'trace _ id'.
«Дауыл» супрессиясы: белсенді Р1 кезінде телнұсқаларды уақытша басу.
Корреляциялар: негізгі себеп айналасындағы сигналдарды топтастыру (релиз/фича/провайдер).
Гистерезис: табалдырықтан кіру/шығу - «араны» болдырмау үшін әртүрлі.
6) Алерт мазмұны (үлгі)
Тақырып: қысқаша және нақты - «EU/Checkout: p95> 250ms (SLO breach)».
Негізгі өрістер: басымдық, уақыт, өңір, тенант, нұсқа, trace_id, affected%, кіру. себебі.
Қазір не істеу керек: бірінші 1-3 қадам + рунбук/батырмаларға сілтеме (Re-route, Rollback, Pause Promo).
Келесі коммуникация: N минуттан кейін, иесі (IC/он-колл).
7) Жеткізу арналары
Чат/мессенджер: триаждың негізгі арнасы (түймелері бар бот-карточкалар).
Пейджер/дауыс/SMS: P1 үшін.
Пошта: есептер және non-urgent (P3/Info).
Вебхактар: тикетингпен/оркестрмен интеграциялау.
Мәртебе-бет: клиенттер мен әріптестерді сыртқы хабардар ету.
8) Интеграция және «іс-қимыл түймелері»
Инцидент-бот: карточка жасайды, IC тағайындайды, бейнемост ашады, таймерлер басталады.
Руны (auto-actions): Re-route, Rollback, Raise Limit, Flush Cache, Disable Webhooks, Enable Safe Mode.
Құқықтары: рундарды іске қосу рөлдермен шектелген; барлық іс-әрекеттерге қол қойылады және логика жасалады.
9) Мультирегион және multi-tenant
Өңірлер бойынша тәуелсіз SLO/табалдырықтар; жергілікті қақтығыстар бүкіл әлемді «бояп» тұрған жоқ.
Көріну сүзгілері: серіктестер/тенанттар тек қана өздерін көреді.
Юрисдикциялық талаптар: хабарлама мәтіндері, тілдер, сағат белдеулері.
10) Саясат, кесте, тыныштық терезелері
Алерт саясаты: иелері, табалдырықтар, арналар, эскалациялар, шаблондар.
Күнтізбелер: жұмыс/жұмыс істемейтін уақыт, релиздік/маркетингтік терезелер.
Change freeze: ірі акциялар кезінде шектерді жұмсарту немесе «P1 емес» басу.
11) Аудит және заңдық белгілеу
Түбіртектер: сыни алерталар үшін - 'receipt _ hash' және DSSE-қолтаңба.
WORM журналдары: оқиғалар мен реакцияларды өзгеріссіз сақтау (кім не істегенін растады).
Chain-of-custody: эскалациялар мен шешімдерді трассалау.
12) Хабарламалар жүйесінің метрикасы мен SLO
MTTA (acknowledge): P1 ≤ 5-10 мин; P2 ≤ 30 мин.
Page rate/On-call load: ауысымға сигналдар - нысаналы диапазонда.
False Positive%: мақсатты шегінің ≤ (әдетте <10-15%).
Correlation efficiency: топтастырылған сигналдардың үлесі ≥ 80%.
Delivery SLO: сөйлесу ≥ 99. 9%, SMS/дауыс ≥ 99. 5%.
Time-to-Action: p95 алертадан рунаны іске қосуға.
13) Дашбордтар және репорттар
Жедел: белсенді инциденттер, burn-rate, өңірлер/тенанттар картасы, алерталар кезегі.
Алерт сапасы: шу, FP, табалдырықтың ретесттері, «үнсіз аймақтар».
On-call жүктемесі: пейджерлердің жиілігі, реакция уақыты, «out of hours».
Пост-инцидент: руна тиімділігі, себептердің қайталануы.
14) iGaming/финтех ерекшелігі
Payments/PSP: P1 - провайдердің істен шығуы, авторизация істен шығуының өсуі; авто-роут резервтік PSP.
RTP & Limits: бақыланатын RTP дрейфіне алерта, лимиттерден асып кету, ұтыстардың күдікті үлгілері.
Аффилиаттар/вебхактар: жеткізу мерзімі, қосарланудың өсуі, расталған түбіртектердің құлдырауы.
Price/FX/Tax: витринаның checkout сәйкессіздігі, артефактілер нұсқаларының рассинхроны.
Жауапты ойын: RG-триггерлер және олардың/Compliance қолдау уақытылы эскалациясы.
15) RACI
16) Енгізу чек-парағы
- North-Star және SLI/SLO; алгоритмдерді burn-rate-мен байланыстыру.
- Саясат каталогын енгізу: табалдырықтар, арналар, эскалациялар, тыныштық терезелері.
- Дедуп, корреляциялар, гистерезис, дауылды басу.
- Мультирегионалдық және multi-tenant көріну ережелерін баптау.
- Әрекеттер түймешіктері мен рунбуктерді қосу; іске қосу құқығын шектеу.
- WORM/түбіртектерді, trace_id трассировкасын және run-аудитті қосу.
- Сапа дашбордтарын құру (noise, FP, MTTA, page rate).
- Провести GameDay: PSP outage, WebhookLag, PriceMismatch, RTP Drift.
- Табалдырықты үнемі қайта қарау; A/B шектері «мылқау» метриктерде.
- Ай сайын on-call жүктеме және жақсарту бойынша есеп.
17) Плейбуктер (референс)
PSP Outage (P1): резервке авто-роут, клиенттердің таймауттарының төмендеуі, «сұр» транзакциялар карантині, статус-апдейт 15 минуттан кейін.
WebhookLag (P2): воркерлер/батч ұлғайту, кезектердің басымдығы, міндетті емес эндпоинттердің уақытша үзілісі.
PriceMismatch (P1/P2): кэштің форс-мүгедектігі, салыстыру 'fx _ version/tax _ rule _ version', артефактының қайтарылуы, өтемақы.
RTP Drift (P2): бонустар/промо үзілісі, профиль аудиті, бақылау терезесін кеңейту.
Security: SoD/MFA fail (P1/P2): операцияны бұғаттау, JIT-қайта тексеру, форензия және қажет болған жағдайда Legal.
18) FAQ
Жалған іске қосылуларды қалай азайтуға болады?
SLO-бағытталған ережелер, корреляциялар, гистерезис, оқыту терезелері және табалдырықтарды үнемі қайта қарау.
Не маңыздырақ - қамту немесе дәлдік?
P1 үшін - дәлдік және жылдамдық (жақсы, бірақ сыни). P3 үшін - трендтер мен құнды қамту.
Телефон пейджингі қажет пе?
Иә, P1 үшін; сөйлесу қол жеткізгісіз немесе «тұйықталған» болуы мүмкін.
On-call командасын қалай «жағуға» болмайды?
page rate лимиттері, жүктемелерді қайта бөлу, «follow-the-sun», шудың ай сайынғы шуы.
Түйіндеме: Ескертулер мен ескертулер жүйесі - бұл белгіден әрекетке басқарылатын конвейер. Оны SLO-да жасаңыз, шуды сөндіріңіз, контекст бойынша бағыттаңыз, әрекет түймелерін беріңіз және бәрін заңды түрде белгілеңіз. Осылайша сіз MTTA-ны қысқартасыз, on-call-тен жүктемені алып тастайсыз және провайдерлердің күрт көтерілулері мен істен шығулары кезінде де бизнестің тұрақтылығын арттырасыз.