Нақты уақыттағы алерттар
1) Мақсаты мен қағидаттары
Мақсаты: SLO-ға, түсім мен комплаенске қауіп төндіретін оқиғалар туралы қажетті адамдарды/жүйелерді уақтылы, дәл және атаулы хабардар ету және дұрыс іс-қимылдарды (қолмен/автоматты) іске қосу.
Қағидаттары: SLO-first, шуды азайту, түсініктілік, контекст, бизнес әсері бойынша басымдық, «бір сигнал - бір түсінікті әрекет».
2) Сигналдардың таксономиясы
SLO-сигналдар: бюджет burn-rate сыни жолдар бойынша қателер (логин, депозит, мөлшерлеме, шығару).
KRI: тәуекелдің ерте индикаторлары (банк/GEO бойынша PSP-де auth-success құлдырауы, consumer-lag өсуі, p99 ↑).
Оқиғалық: тәуелділік флаптары, failover, қолмен ауыстырып қосу, қорғаудың іске қосылуы (rate-limit, WAF).
Қауіпсіздік/комплаенс: сезімтал операциялардың жарылысы, PII экспорты, SoD бұзушылықтары.
3) Құлақтандыру деңгейлері және SLA
4) Контекст көздері мен корреляциясы
Телеметрия: метрика/трейс/логи, синтетика және RUM.
Каталогтар: CMDB/сервис-мапа, иелері, тәуелділіктер.
Өзгерістер: релиздер, фичфлагтар, көші-қон, жоспарлы жұмыстар.
Сыртқы провайдерлер: PSP/KYC/ойын студиялары/CDN/WAF мәртебелері.
Әрбір қорқыныш байиды: жанында не өзгерді? (релиз/фичфлаг), қандай тәуелділіктер қызыл?, қандай сегментке әсер етеді? (GEO/PSP/банк/тенант).
5) SLO-алертинг ережелері (ядро)
Burn-rate: екі терезе (жылдам 1 сағат және баяу 6-24 сағат). Пейджер - бір мезгілде артқан кезде ғана.
Guardrails: p99/error-rate бойынша табалдырықтар тек контекст талдауының триггерлері болып табылады, SLO-ны алмастырмайды.
Импакт: бағалау «аудитория үлесі × ақша/мин × реттеуші» → P1-P4 деңгейі.
6) Шуды басу
Дедупликация: сервис/теңге/себеп бойынша топтау; ондаған сигналдың орнына бір инцидентті қараймыз.
Гистерезис: N-из-M растаулар, аномалияның ең аз ұзақтығы.
Сайленстер/мьюттар: жоспарлы жұмыстар, белгілі инциденттер, «follow-the-sun» терезелері.
Рейт-лимиттер және квоталар: дереккөзге/лейбл/тенантқа; «дауылдан» қорғау.
Түбірлікті төмендету: userId/sessionId-ге тыйым салынған.
7) Маршруттау және эскалация
Мәтін бойынша роутинг: домен (Payments/Games/Core), қоршаған орта (prod/stage), өңір, ауырлық.
Эскалация: t0 - on-call L1; t0 + X - L2/домен иесі; t0 + Y - IC/нұсқаулық. X/Y уақыты P1-P3 байланысты.
Келесі арналар бойынша қайталау: pager + P1 кезіндегі чат; P3 кезіндегі чат/шот.
Ауысым: контекстің авто-берілуі (timeline, орындалған әрекеттер, гипотезалар).
8) Авто-әрекеттер (auto-remediation)
Төлемдер: PSP-ны health × fee × conversion бойынша ауыстырып қосу, банктерді/әдістерді шектеу, джиттермен ретра.
Ойындар/ставкалар: кэш-wedge қосыңыз/write-операцияларын шектеу, queue-page/waiting-room алдында.
Инфра: трафикті эвакуациялау, деградациялайтын воркерлерді қайта қарау, lag бойынша масштабтау.
Қауіпсіздік/комплаенс: PII экспортын уақытша жабу, P1 операциялары үшін dual-control енгізу.
Кез келген авто-әрекет - кері қайтару саясаты мен қайтару критерийлерімен.
9) Runbook-бірінші тәжірибе
Әрбір алерт runbook-пен байланысты: мақсат, жылдам диагностика (3-5 тексеру), фикс/кері қайтару қадамдары, контактілер, дашбордтарға және мәртебе парағына сілтемелер. Чат/пейджерде іс-әрекеттердің қысқаша карточкасын көрсетеміз.
10) Он-колл саясат
Ротация 24 × 7, домендермен жабу (Payments/Game Core/SRE).
P1 үшін «Second on-call», вар-румдағы екі адамның ережесі.
Quiet-hours және аймақтар бойынша кезекші терезелер (follow-the-sun).
Оқыту: тоқсан сайынғы жаттығулар (tabletop/game-day), shadow-ауысымдар.
Жанып кетпеу үшін инциденттен кейінгі несиелер (comp-time).
11) Интеграция
Инцидент-менеджмент: карточкаларды, апдейт ленталарын, IC/CL рөлдерін, таймерлерді авто жасау.
Мәртебе-бет: үлгілермен және локализациямен P1/P2 (Comms Lead арқылы) жариялау.
Релиздер: SLI бойынша release-gates, алгоритмдер кезінде авто-тоқта/rollback.
Каталогтар: иелері, CMDB, провайдерлер контактілері.
12) Алерт мысалдары (iGaming)
1. PSP-1-да auth-success 10 минут ішінде 25% -ға ↓
P2 → P1> 30% транзакцияларды қамтығанда.
Авто-әрекет: PSP-2/3 трафигін қайта бөлу; жеңілдетілген 3DS қосыңыз; alert Partner Manager.
2. p99 «ставка → сеттл»> 3 × нормалар EU
Себептері: репликация lag, воркерлердің кезегі.
Авто-әрекет: scale-out воркерлері, warmup кэші, сыни емес фичтерді уақытша өшіру.
3. Export PII spikes
P1 тикет/мақұлдау болмаған кезде.
Авто-әрекет: түсіру блогы, Compliance хабарламасы, SoD тексеру.
13) Алертинг сапасының өлшемдері (KPI/KRI)
MTTA-Comms/MTTA-Ops: реакцияға/бірінші әрекетке дейінгі уақыт.
Precision/Recall (төтенше оқиға), False Alarm Rate.
SLO, TTD бұзылғанға дейін Lead-time (табу уақыты).
Pager fatigue: алерт/адам/апта, түнгі қоңыраулар, «бос орындар» пайызы.
Auto-fix rate: адамсыз авто-реакциямен жабылған проблемалардың үлесі.
Aging: аспалы P3/P4> X күн үлесі.
14) Құнын басқару
Алерттерге/көздерге квоталар, артық лейблдерді кесу.
Downsampling және метриктерді агрегаттау, трассалардың семплингі; сыныптар бойынша ретенциялар.
Тұрақты cost-review: $/алерт, $/SLI-дашборд, «ауыр» сериялар.
15) Құпиялылық және комплаенс
РІІ-сіз мәтінде алерталар мен лейблдер; идентификаторларды токенизациялау.
(RBAC/ABAC), SoD қол жеткізу саясаты.
Ереже өзгерістерінің аудиті, нұсқалау, тестілер және дифф.
16) Енгізу жол картасы (6-10 апта)
Нед. 1-2: SLI/KRI каталогы, иелерінің картасы, P1-P4 деңгейлері, бірінші SLO-ережелер (burn-rate).
Нед. 3-4: дедуп/гистерезис/сайленс, инцидент-жүйемен және чаттармен интеграция, runbook-байланыстар.
Нед. 5-6: авто-әрекеттер үшін Payments/Queues, release-gates, статус-бет фид.
Нед. 7-8: контекст (релиздер/фичфлагтар/провайдерлер), PSP жылу карталары × банк × GEO, жаттығулар P1/P2.
Нед. 9-10: FinOps алертинг, KPI-дашбордтар, шектер мен квоталарды қайта қарау, он-колла оқыту.
17) Артефактілер мен шаблондар
Alert Spec: метрика/шарт, терезелер, басу, иесі, runbook, авто әрекеттер.
Routing Map: домен → арна → эскалация, резервтік контактілер.
Silence Policy: мьют ережелері (жоспарлы/белгілі инциденттер), кімдер қамтуы мүмкін.
On-call Handbook: ротация, ауысым, P1/P2 чек парақтары, арналар.
Post-Incident Pack: алертті түсіру/уақытша желілер, сигнал сапасын талдау.
18) Антипаттерндер
SLO → шу және шаршау жоқ «шикі» p95/p99 пейджер.
Бір нәрсе туралы ондаған сигналдар (дедуп/корреляция жоқ).
Runbook немесе алерт иесі жоқ.
Маусымдылықсыз/сегментациясыз «тастағы» шегі (GEO/PSP/банк/сағат).
Авто- әрекеттерден кейін қайтарусыз (roll-back өлшемдері жоқ).
PII және userId → тәуекелдері мен кардиналдылықтың жарылысы бар лейблдер.
Жиынтық
Шын мәнінде пайдалы алертинг - SLO-орталықтандырылған конвейер: burn-rate контекст ережелері, ақылды шуды басу, нақты роутинг және эскалация, runbook-бірінші тәжірибе және қауіпсіз авто әрекеттер. Мұндай контур пайдаланушылардан бұрын сыни оқиғаларды ұстайды, MTTR-ді төмендетеді, түсімді қорғайды және бір мезгілде он-колды «пейджер-тозақ» тәртібінен сақтайды.