Обозримость цепей и узлов
1) Задача и объект наблюдения
Обозримость цепей и узлов — это способность экосистемы видеть, измерять и объяснять поведение межцепных потоков (трафик/события/платежи/KYC/контент) и узлов (операторы, студии/RGS, PSP/APM, KYC/AML-провайдеры, аффилиаты, агрегаторы, стрим-узлы). Цели:- сквозная причинность (от клика до инвойса);
- предсказуемые SLO и управляемый риск;
- быстрые RCA и низкий MTTR;
- доказуемость (подписанные сводки, WORM-аудит) при минимальной стоимости телеметрии.
2) Онтология наблюдаемости
Сущности:- `chainId`, `nodeId`, `role`(operator/studio/psp/kyc/affiliate/stream), `jurisdiction`, `env`(prod/stage/sbx), `traceId`, `spanId`, `routeId`, `campaignId`, `tableId`, `apmRouteId`.
- `click`, `session_start`, `registration`, `kyc_status`, `deposit/withdrawal`, `ftd`, `bet/spin`, `reward_granted`, `postback_sent/received`, `jackpot_contribution/trigger`, `stream_sli`, `rg_guardrail_hit`.
- Metrics (RED/USE/Golden Signals), Traces (W3C traceparent), Logs (структурные), Events (бизнес), RUM/Synthetic (клиент/каналы), Audit/WORM (неизменяемые).
Все схемы версионируются в Schema Registry; времена — UTC/ISO-8601.
3) Транспорт и корреляция
OpenTelemetry: единый формат метрик/логов/спанов; экспортеры в TSDB/обработчики.
W3C Trace Context: `traceparent`/`tracestate` прокидываются через редиректы, API, вебхуки, шину.
Идемпотентность: `Idempotency-Key` на критичных путях (платежи/постбеки).
Exactly-once по смыслу: дедуп по хэшам/курсорная история, реестр переигровки вебхуков.
Exemplars: связываем гистограммы latency с конкретными `traceId` для быстрых RCA.
4) Модель SLI/SLO и бюджеты ошибок
Golden Signals: latency, traffic, errors, saturation.
RED (HTTP/шлюзы): Rate, Errors, Duration.
USE (инфраструктура): Utilization, Saturation, Errors.
- Вебхуки: доставка ≥ 99.9%, p95 ≤ 1–2 с.
- API партнеров: p95 ≤ 150–300 мс, error rate ≤ 0.3–0.5%.
- Шина событий: lag p95 ≤ 200–500 мс; доставка ≥ 99.9%.
- Платежи/APM: CR в коридоре профиля; e2e авторизация ≤ X с.
- KYC: pass-rate и SLA этапов по профилям юрисдикций.
- Live/SFU/CDN: e2e 2–3 с, packet loss ≤ 1%, аптайм ≥ 99.9%.
- Дашборды: свежесть ≤ 1–5 с; p95 рендера ≤ 1.5–2.0 с.
Бюджет ошибок: фиксируем периоды (например, 30 дней), типы ошибок (5xx, таймауты, нарушения SLO), правила auto bonus/malus и стоп-кнопки.
5) Дашборды: слои и артефакты
1. Service Graph (цепи↔узлы): топология, потоки rps/eps, p95/p99, error-rate, saturation, heatmap по юрисдикциям.
2. Business Flow: клик→регистрация→KYC→депозит→FTD→ставка/раунд→выплата; конверсионные воронки и окна атрибуции.
3. Payments/KYC: CR×гео×устройство, код-мапы отказов, latency этапов, auto cut-over с аннотациями.
4. Content/RGS/Live: round-trip, error-rate, SFU/CDN SLI, таблицы лидеров и джекпоты.
5. Postbacks/Attribution: своевременность, спорность, дедуп, курсорные лаги.
6. Trust & Risk: scorecards узлов (SLO/ATTR/RG/SEC), «время на трейс-пакет», прогноз Tier.
Каждая панель — с версиями формул и ссылками на changelog.
6) Алертинг и эскалации
Многоуровневые SLO-алерты: предупреждение (burn-rate 2×), критика (burn-rate 10×), последующие действия (охлаждение маршрутов/лимитов).
Композиционные триггеры: «latency↑ + CR↓ + postback lag↑» → подозрение на деградацию PSP.
Ролевые каналы: SRE/Payments/KYC/RGS/Маркетинг/Финансы/Legal/RG; контекст сразу включает `traceId`/`runbook`/стоп-кнопку.
Snooze/Muting-политики для шумных метрик, но без глушения P1.
7) RCA и war-room
SLA на трейс-пакет: 60–90 с (P1/P2).
Шаблон RCA «без поиска виноватых»: факт → гипотеза → эксперимент → вывод → действие → follow-up.
Дифф релизов (события §2): автоматическая проверка коллизий/формул/конфигов в окне инцидента.
Post-mortem SLO: время до детекта, до паузы, до отката, до стабилизации, до публикации заметок.
8) Качество данных и линии происхождения
Data Quality SLI: полнота, свежесть, уникальность (`eventId`), согласованность валют/локалей.
Lineage: от витрин/панелей к источникам (схемы/версии/владельцы).
Оракулы: подписанные агрегаты (GGR/NetRev/SLO/RG), `formulaVersion`, `hash(inputs)`, `kid`, период.
WORM-аудит: неизменяемые логи формул/ключей/исключений/инвойсов.
9) Приватность, юрисдикции и безопасность
Zero Trust: mTLS, короткоживущие токены, egress-allow-list, ротация ключей/JWKS.
PII-минимизация: токенизация `playerId`, детокенизация только в сейф-зонах; запрет ПДн в логах/метриках.
ABAC/ReBAC/SoD: доступ «вижу свое и согласованное»; «измеряю ≠ влияю ≠ меняю».
Локализация данных и DPIA/DPA для рынков; purge-политики и TTL.
10) Стоимость телеметрии и управление кардинальностью
Cardinality Budget: лимиты на лейблы (userId/URL/UA — запрещены; routeId/campaignId — разрешены).
Гистограммы вместо перцентилей «на лету»; exemplars для выборочной детализации.
Adaptive sampling трассировок: базовый процент + приоритет для ошибок/медленных путей/новых версий.
Downsampling/roll-ups по давности (1с→1м→5м); хранение RAW-трейсов кратко, агрегатов — дольше.
SLO-first: собираем только то, что поддерживает решения (SLO/финансы/комплаенс).
11) Интеграция с управлением (SRE ↔ бизнес)
Guardrails релизов и кампаний привязаны к SLO/бюджетам ошибок.
Auto cut-over маршрутов APM/KYC при выходе метрик за коридоры.
RevShare/лимиты: множитель качества `Q` (из SLO/ATTR/RG/SEC) влияет на ставки и квоты.
Scorecards узлов → приоритизация трафика и доступ к пилотам.
12) Анти-паттерны
«Много истин» по формульным метрикам и разным окнам.
Offset-пагинация истории под нагрузкой (используйте курсоры).
PII в логах/панелях; экспорт ПДн в BI.
Зоопарк постбеков и неподписанные вебхуки → дубли/дыры/споры.
Граф без `traceId`: панель красива, причинности нет.
Алерт-шторм без burn-rate и ролевых маршрутов.
SPOF-агрегатор телеметрии без N+1/DR.
Исключения без TTL/аудита — «липкие» override-ы.
13) Чек-листы
Проектирование
- Онтология сигналов и схем; версии и владельцы.
- W3C traceparent везде; Idempotency-Key на критичных путях.
- SLI/SLO и бюджеты ошибок; стоп-кнопки; guardrails.
- Политики кардинальности, sampling, retention/roll-ups.
- Privacy/PII: токенизация, DPA/DPIA, локализация.
- Role-based алерты и runbooks.
Запуск
- Conformance для трасс/метрик/логов; synthetic-прогоны.
- Канареечная телеметрия при релизах; сравнительные панели до/после.
- War-room плейбуки; SLA на трейс-пакет.
Эксплуатация
- Еженедельные scorecards узлов; burn-rate отчеты.
- Ежемесячные чейнджлоги формул и пересмотр SLO/лимитов.
- DR/хаос-учения агрегаторов/шины/витрин.
14) Дорожная карта зрелости
v1 (Foundation): базовые метрики+логи, единый traceId, ручные RCA, первичные SLO.
v2 (Integration): OpenTelemetry повсеместно, service graph, guardrails, конвейер оракулов, ролевые алерты.
v3 (Automation): предиктивные деградации, auto cut-over APM/KYC/RGS, smart-reconciliation, динамика лимитов по `Q`.
v4 (Networked Governance): межцепной обмен сигналами и оракулами, DAO-правила формул/SLO, прозрачные казначейства.
15) Метрики успеха
Качество/риск: MTTR↓, MTTD↓, спорность< X%, доля auto-паузы/отката, покрытие трасс ≥ 95%.
Бизнес: uplift предсказуемости CR/FTD/ARPU/LTV, точность и своевременность постбеков, стабильность NetRev.
Техника: p95 API/вебхуков/шины/витрин в коридорах; аптайм узлов/CDN/SFU ≥ 99.9%.
Экономика: Cost-to-Observe (CTO) на rps/event, % агрегатов с exemplars, хранение RAW в лимитах.
Комплаенс: 0 утечек ПДн, успешные DPIA/DPA-аудиты, доступность WORM-логов 100%.
Краткое резюме
Обозримость — это производственный контур доверия: одна онтология, сквозные трассировки, каноника метрик и событий, SLO-гардрейлы и оракулы данных, приватность по умолчанию и дисциплина стоимости телеметрии. Такой каркас делает цепи и узлы прозрачными, предсказуемыми и доказуемыми, а экосистему — быстрыми в реакции и устойчивой к рискам.