Реалдуу убакытта алерталар
1) Максаты жана принциптери
Максаты: керектүү адамдарга/системаларга SLO, киреше жана комплаенс коркунучун туудурган окуялар жөнүндө өз убагында, так жана даректүү кабарлоо жана туура аракеттерди (кол менен/автоматтык) баштоо.
Принциптер: SLO-first, ызы-чууну азайтуу, түшүндүрүү, контекст, бизнес таасири боюнча артыкчылыктуу, "бир сигнал - бир түшүнүктүү аракет".
2) Сигналдардын таксономиясы
SLO-сигналдар: критикалык жолдор боюнча бурн-rate бюджет каталар (логин, депозиттик, чен, чыгаруу).
KRI: тобокелдиктин алгачкы көрсөткүчтөрү (PSP банк/GEO боюнча auth-success төмөндөшү, consumer-lag өсүшү, p99 ↑).
Events: көз карандылык Flap, өлтүргүч, кол которуштуруу, коргоону ишке киргизүү (rate-limit, WAF).
Коопсуздук/комплаенс: сезгич иш, PII экспорттоо, SoD бузуулар.
3) деңгээл жана SLA эскертүүлөр
4) Булактары жана контексттин корреляциясы
Телеметрия: метрика/соода/логи, синтетика жана RUM.
Каталогдор: CMDB/кызматы-mapa, ээлери, көз карандылык.
Өзгөртүүлөр: Releases, fichflages, көчүрүү, пландаштырылган иш.
Тышкы провайдерлер: PSP/KYC/оюн студиялары/CDN/WAF статустары.
Ар бир кооптонуу байыйт: жакын жерде эмне өзгөрдү? (релиз/fichflag), кандай көз карандылыктар кызыл?, кайсы сегмент таасир этет? (GEO/PSP/банк/тенант).
5) SLO-Alerting эрежелери (негизги)
Burn-rate: эки терезе (тез 1h жана жай 6-24h). Пейджер - бир эле учурда ашып гана.
Guardrails: p99/error-rate босоголору SLO ордуна гана контексттик талдоо триггерлери катары кызмат кылат.
Impact: баа "аудиториянын үлүшү × акча/мин × жөнгө салуучу" → P1-P4 деңгээл.
6) Ызы-чууну басуу
Дедупликация: сервис/тенант/себеп боюнча топтоо; бир окуяны ондогон сигналдардын ордуна
Гистерезис: N-из-M тастыктоо, аномалиянын минималдуу узактыгы.
Шилтемелер/музыка: пландаштырылган иш, белгилүү окуялар, "күн-артынан" терезелер.
Рейт-лимиттер жана квоталар: булакка/лейблге/тенантка; "бороондон" коргоо.
кардиналдуулугун азайтуу: тыюу userId/sessionId алерт-лейблдер.
7) Багыттоо жана эскалация
Контекстке ылайык роутинг: домен (Payments/Games/Core), айлана-чөйрө (prod/этап), аймак, оордук.
Эскалация: t0 - on-call L1; t0 + X - L2/домен ээси; t0 + Y - IC/колдонмо. Убакыт X/Y P1-P3 көз каранды.
каналдар боюнча кайталоо: pager + P1 боюнча чат; P3 чаты/билети.
Смена: контекст auto-берүү (timeline, аткарылган иш-аракеттер, гипотезалар).
8) Auto-аракеттер (auto-remediation)
Төлөмдөр: PSP которуу ден соолук × fee × conversion, банктардын чектөө/ыкмалары, Retra менен Jitter.
Оюндар/коюмдар: Кэш-wedge/write-ишин чектөө, алдыңкы queue-page/waiting-room кирет.
Infra: жол көчүрүү, деградациялоочу Worker кайра баштоо, lag масштабдоо.
Коопсуздук/комплаенс: PII экспортту убактылуу жабуу, P1 операциялары үчүн кош контролду киргизүү.
Ар кандай авто-аракет - кайтаруу саясаты жана кайтаруу критерийлери менен.
9) Runbook-биринчи тажрыйбасы
Ар бир алерт runbook менен байланышкан: максаты, тез диагностика (3-5 текшерүү), fix/кайра кадам, байланыш адамдар, dashboard шилтемелер жана статус-бет. Чатта/пейджерде биз иш-аракеттердин кыскача картасын көрсөтөбүз.
10) On-call саясаты
24 × 7 айлануу, домендерди жабуу (Payments/Game Core/SRE).
"Second on-call" P1 үчүн, war-room эки адамдын эрежеси.
Quiet-hours жана аймактар боюнча күзөт терезелери (күн).
Окутуу: чейректик машыгуу (tabletop/game-day), shadow-өзгөрүүлөр.
Пост-окуя кредиттер (comp-убакыт) чарчап калбаш үчүн.
11) Интеграция
Инцидент-менеджмент: авто-түзүү карталары, жаңыртылган ленталар, IC/CL ролдору, таймерлер.
Статус-бет: P1/P2 жарыялоо (Comms Lead аркылуу) үлгүлөрү жана локализациясы менен.
Релиздер: SLI, auto-stop/rollback боюнча release-gates.
Каталогдор: ээлери, CMDB, байланыш провайдерлери.
12) Alert мисалдар (iGaming)
1. Auth-success PSP-1 TR ↓ 25% 10 мин
P2 → P1> 30% бүтүмдөрдү камтыйт.
Авто-аракет: PSP-2/3 трафигин кайра бөлүштүрүү; жөнөкөйлөтүлгөн 3DS кирет; alert Partner Manager.
2. p99 "коюм → сеттл"> 3 ЕБ × ченемдер
Себептери: lag репликация, воркерлер кезеги.
Auto-иш-аракет: scale-out воркерлер, warmup кэш, убактылуу өчүрүү эмес-маанилүү чүчүкулак.
3. Export PII spikes
P1 тикет/бекитүү жок болсо.
Auto-аракет: Block чыгаруу, Compliance эскертүү, SoD текшерүү.
13) Алертинг сапаты (KPI/KRI)
MTTA-Comms/MTTA-Ops: жооп/биринчи аракет чейин убакыт.
Precision/Recall, False Alarm Rate.
Lead-time SLO бузууга чейин, TTD (аныктоо убактысы).
Pager fatigue: alertov/адам/жума., түнкү чалуулар, "бош" пайызы.
Auto-fix rate: адамсыз авто-жооп менен жабылган көйгөйлөрдүн үлүшү.
Aging: P3/P4> X күн илинип үлүшү.
14) Наркты башкаруу
Квоталар алерт/булактарга, ашыкча этикеткаларды кесип.
Downsampling жана жыйындысы метриктер, sampling жолдор; класстар боюнча.
Үзгүлтүксүз cost-review: $/alert, $/SLI-dashboard, "оор" сериясы.
15) Купуялык жана комплаенс
Текстте PII жок алерттер жана лейблдер; идентификаторлорду белгилөө.
Access Policy (RBAC/ABAC), Алерт конфигурациясында SoD.
Аудит эрежелерди өзгөртүү, версиялоо, тесттер жана дифф.
16) Жол картасы киргизүү (6-10 жума)
Нед. 1-2: SLI/KRI каталогу, ээлеринин картасы, P1-P4 деңгээли, биринчи SLO эрежелери (burn-rate).
Нед. 3-4: dedup/histeresis/sailans, окуя системасы жана чаттар менен бириктирүү, runbook байланыштар.
Нед. 5-6: Payments/Queues үчүн auto аракеттер, release-gates, статус-бет fid.
Нед. 7-8: контекст (релиздер/физфлагдар/провайдерлер), PSP жылуулук карталары × банк × GEO, P1/P2 машыгуулары.
Нед. 9-10: FinOps alerting, KPI-дашборддор, босоголорду жана квоталарды кайра карап чыгуу, он-колла окутуу.
17) Артефакттар жана үлгүлөр
Alert Spec: метрика/шарт, терезелер, басуу, ээси, runbook, auto-аракет.
Routing Map: домен → канал → эскалация, резервдик байланыштар.
Silence Policy: музыка эрежелери (пландаштырылган/белгилүү окуялар), ким камтышы мүмкүн.
On-call Handbook: айлануу, өзгөртүү, чек P1/P2, каналдар.
Post-Incident Pack: Download/убакыт сызыктары, сигналдардын сапатын талдоо.
18) Антипаттерндер
SLO → ызы-чуу жана чарчоо жок "чийки" p95/p99 пейджер.
бир нерсе жөнүндө сигналдар ондогон (эч кандай бабасы/корреляция).
Runbook же ээси жок Алерт.
"Ташта" босогосу сезондук/сегментациясыз (GEO/PSP/банк/саат).
Авто-иш-аракеттерден кийин кайтарымсыз (roll-back критерийлери жок).
PII жана userId менен этикеткалар → тобокелдиктер жана кардиналдык жарылуу.
Жыйынтык
Чынында пайдалуу алертинг - бул SLO-борбордук конвейер: бурн-рате менен контексттик эрежелер, акылдуу ызы-чууну басуу, так роутинг жана эскалация, runbook биринчи тажрыйбасы жана коопсуз автоматтык иш-аракеттер. Мындай контур колдонуучулардан мурда маанилүү окуяларды кармап, MTTRди азайтат, кирешени коргойт жана ошол эле учурда ал-коллду "пейджер-тозок" адатынан сактап калат.