Система уведомлений и алертов
(Раздел: Операции и Управление)
1) Назначение и принципы
Цель — доставлять мало, но метко: только релевантные сигналы, своевременно и ответственному человеку/роботу с понятным next-step.
Принципы:- Actionable by default: у каждого алерта есть владелец, приоритет, срок реакции и кнопка действия.
- SLO-first: алерты строятся вокруг SLI/SLO, а не вокруг произвольных метрик.
- Noise-control: дедуп, корреляции, подавление шторма.
- Context-rich: метаданные (регион, тенант, версия, trace_id) и ссылка на рунбук.
- Audit-ready: все алерты и реакции квитируются и сохраняются в неизменяемом журнале.
2) Источники сигналов
Тех. телеметрия: доступность, p95/p99, error-rate, лаг очередей, ресурсные лимиты.
Бизнес-ивенты: PriceMismatch, WebhookLag, RTP Drift, фрод-сигналы.
Безопасность/комплаенс: SoD-нарушения, PII-доступ, экспирация ключей/сертификатов.
Планировщик: просроченные SLA задач, DLQ-лавины, retry-storms.
3) Классификация и приоритеты
Guardrails: алерты формулируются относительно SLO/бюджета ошибок (burn rate).
4) Роутинг и эскалации 24×7
Роутинг по контексту: `region/tenant/product/provider/severity`.
Эскалационная лестница: on-call инженера → командный лид → Duty Manager → Exec/Legal (для PII/финансов).
Дежурства: ротации по ролям (SRE, App, Data, Security, Payments), резервные контакты (чат/голос/SMS).
Окна тишины: ночные, релизные, маркетинговые; исключения для P1.
5) Шумоподавление и корреляции
Дедупликация: по `(fingerprint, region, tenant, route)` и `trace_id`.
Супрессия «шторма»: временное подавление дубликатов при активном P1.
Корреляции: группировка сигналов вокруг корневой причины (релиз/фича/провайдер).
Гистерезис: вход/выход из порога — разные, чтобы избежать «пилы».
6) Контент алерта (шаблон)
Заголовок: кратко и предметно — «EU/Checkout: p95>250ms (SLO breach)».
Ключевые поля: приоритет, время, регион, тенант, версия, trace_id, affected %, предполож. причина.
Что делать сейчас: первые 1–3 шага + ссылка на рунбук/кнопки (Re-route, Rollback, Pause Promo).
Следующая коммуникация: через N минут, владелец (IC/он-колл).
7) Каналы доставки
Чат/мессенджер: основной канал триажа (бот-карточки с кнопками).
Пейджер/голос/SMS: для P1.
Почта: отчеты и non-urgent (P3/Info).
Вебхуки: интеграции с тикетингом/оркестраторами.
Статус-страница: внешнее уведомление клиентов и партнеров.
8) Интеграции и «кнопки действий»
Инцидент-бот: создает карточку, назначает IC, открывает видеомост, стартует таймеры.
Руны (auto-actions): Re-route, Rollback, Raise Limit, Flush Cache, Disable Webhooks, Enable Safe Mode.
Права: запуск рун ограничен ролями; все действия подписываются и логируются.
9) Мультирегион и multi-tenant
Независимые SLO/пороги по регионам; локальные инциденты не «красат» весь мир.
Фильтры видимости: партнеры/тенанты видят только свое.
Юрисдикционные требования: тексты уведомлений, языки, часовые пояса.
10) Политики, расписания, окна тишины
Политика алертов: владельцы, пороги, каналы, эскалации, шаблоны.
Календари: рабочее/нерабочее время, релизные/маркетинговые окна.
Change freeze: смягчение порогов или подавление «не-P1» во время крупных акций.
11) Аудит и юридическая фиксация
Квитанции: для критичных алертов — `receipt_hash` и DSSE-подпись.
WORM-журналы: неизменяемое хранение событий и реакций (кто подтвердил, что сделал).
Chain-of-custody: трассировка эскалаций и решений.
12) Метрики и SLO системы уведомлений
MTTA (acknowledge): P1 ≤ 5–10 мин; P2 ≤ 30 мин.
Page rate / On-call load: сигналов на смену — в целевом диапазоне.
False Positive %: ≤ целевого порога (обычно < 10–15%).
Correlation efficiency: доля сгруппированных сигналов ≥ 80%.
Delivery SLO: чат ≥ 99.9%, SMS/голос ≥ 99.5%.
Time-to-Action: p95 на запуск руны от алерта.
13) Дашборды и репорты
Оперативный: активные инциденты, burn-rate, карта регионов/тенантов, очередь алертов.
Качество алертов: шум, FP, ретесты порогов, «немые зоны».
Нагрузка on-call: частота пейджей, время реакции, «out of hours».
Пост-инцидент: эффективность рун, повторяемость причин.
14) Специфика iGaming/финтех
Payments/PSP: P1 — отказ провайдера, рост отказов авторизаций; авто-роут на резервного PSP.
RTP & Limits: алерты на дрейф наблюдаемого RTP, превышение лимитов, подозрительные паттерны выигрышей.
Аффилиаты/вебхуки: лаг доставки, рост дублей, падение подтвержденных квитанций.
Price/FX/Tax: несоответствие витрина↔checkout, рассинхрон версий артефактов.
Ответственная игра: RG-триггеры и их своевременная эскалация в поддержку/Compliance.
15) RACI
16) Чек-лист внедрения
- Определить North-Star и SLI/SLO; связать алерты с burn-rate.
- Ввести каталог политик: пороги, каналы, эскалации, окна тишины.
- Реализовать дедуп, корреляции, гистерезис, подавление шторма.
- Настроить мультирегиональные и multi-tenant правила видимости.
- Подключить «кнопки действий» и рунбуки; ограничить права запуска.
- Включить WORM/квитанции, трассировку trace_id и rун-аудит.
- Построить дашборды качества (noise, FP, MTTA, page rate).
- Провести GameDay: PSP outage, WebhookLag, PriceMismatch, RTP Drift.
- Регулярно пересматривать пороги; A/B порогов на «немых» метриках.
- Отчет по on-call нагрузке и улучшениям ежемесячно.
17) Плейбуки (референс)
PSP Outage (P1): авто-роут на резерв, понижение таймаутов клиентов, карантин «серых» транзакций, статус-апдейт через 15 мин.
WebhookLag (P2): увеличить воркеры/батч, приоритизация очередей, временная пауза необязательных эндпоинтов.
PriceMismatch (P1/P2): форс-инвалидация кэша, сверка `fx_version/tax_rule_version`, откат артефакта, компенсации.
RTP Drift (P2): пауза бонусов/промо, аудит профилей, расширение окна наблюдения.
Security: SoD/MFA fail (P1/P2): блокировка операции, JIT-перепроверка, форензика и Legal при необходимости.
18) FAQ
Как уменьшить ложные срабатывания?
SLO-ориентированные правила, корреляции, гистерезис, обучающие окна и регулярный пересмотр порогов.
Что важнее — охват или точность?
Для P1 — точность и скорость (лучше меньше, но критичных). Для P3 — охват трендов и стоимости.
Нужен ли телефонный пейджинг?
Да, для P1; чат может быть недоступен или «замьючен».
Как не «сжечь» on-call команду?
Лимиты page rate, перераспределение нагрузок, «follow-the-sun», ежемесячные ревью шумов.
Резюме: Система уведомлений и алертов — это управляемый конвейер от сигнала к действию. Стройте ее на SLO, гасите шум, маршрутизируйте по контексту, давайте кнопки действий и фиксируйте все юридически. Так вы сокращаете MTTA, снимаете нагрузку с on-call и повышаете устойчивость бизнеса даже при резких всплесках и сбоях провайдеров.