Осяжність ланцюгів і вузлів
1) Завдання і об'єкт спостереження
Осяжність ланцюгів і вузлів - це здатність екосистеми бачити, вимірювати і пояснювати поведінку міжчіпних потоків (трафік/події/платежі/КУС/контент) і вузлів (оператори, студії/RGS, PSP/APM, KYC/AML-провайдери, афіліати, агрегатори, стрім-вузли). Цілі:- наскрізна причинність (від кліка до інвойсу);
- передбачувані SLO і керований ризик;
- швидкі RCA і низький MTTR;
- доказовість (підписані зведення, WORM-аудит) при мінімальній вартості телеметрії.
2) Онтологія спостережуваності
Сутності:- `chainId`, `nodeId`, `role`(operator/studio/psp/kyc/affiliate/stream), `jurisdiction`, `env`(prod/stage/sbx), `traceId`, `spanId`, `routeId`, `campaignId`, `tableId`, `apmRouteId`.
- `click`, `session_start`, `registration`, `kyc_status`, `deposit/withdrawal`, `ftd`, `bet/spin`, `reward_granted`, `postback_sent/received`, `jackpot_contribution/trigger`, `stream_sli`, `rg_guardrail_hit`.
- Metrics (RED/USE/Golden Signals), Traces (W3C traceparent), Logs (структурні), Events (бізнес), RUM/Synthetic (клієнт/канали), Audit/WORM (незмінні).
Всі схеми версіонуються в Schema Registry; часи - UTC/ISO-8601.
3) Транспорт і кореляція
OpenTelemetry: єдиний формат метрик/логів/спанів; експортери в TSDB/обробники.
W3C Trace Context: 'traceparent '/' tracestate'прокидаються через редиректи, API, вебхуки, шину.
Ідемпотентність: 'Idempotency-Key'на критичних шляхах (платежі/постбеки).
Exactly-once за змістом: дедуп за хешами/курсорна історія, реєстр перегравання вебхуків.
Exemplars: пов'язуємо гістограми latency з конкретними'traceId'для швидких RCA.
4) Модель SLI/SLO і бюджети помилок
Golden Signals: latency, traffic, errors, saturation.
RED (НТТР/шлюзи): Rate, Errors, Duration.
USE (інфраструктура): Utilization, Saturation, Errors.
- Вебхуки: доставка ≥ 99. 9%, p95 ≤ 1-2 с.
- API партнерів: p95 ≤ 150–300 мс, error rate ≤ 0. 3–0. 5%.
- Шина подій: lag p95 ≤ 200-500 мс; доставка ≥ 99. 9%.
- Платежі/АРМ: CR в коридорі профілю; e2e авторизація ≤ X с.
- KYC: pass-rate і SLA етапів за профілями юрисдикцій.
- Live/SFU/CDN: e2e 2-3 с, packet loss ≤ 1%, аптайм ≥ 99. 9%.
- Дашборди: свіжість ≤ 1-5 с; p95 рендера ≤ 1. 5–2. 0 с.
Бюджет помилок: фіксуємо періоди (наприклад, 30 днів), типи помилок (5xx, таймаути, порушення SLO), правила auto bonus/malus і стоп-кнопки.
5) Дашборди: шари та артефакти
1. Service Graph (tsepi↔uzly): топологія, потоки rps/eps, p95/p99, error-rate, saturation, heatmap по юрисдикціях.
2. Business Flow: klik→registratsiya→KYC→depozit→FTD→stavka/raund→vyplata; конверсійні воронки і вікна атрибуції.
3. Payments/KYC: CR × гео × пристрій, код-мапи відмов, latency етапів, auto cut-over з анотаціями.
4. Content/RGS/Live: round-trip, error-rate, SFU/CDN SLI, таблиці лідерів і джекпоти.
5. Postbacks/Attribution: своєчасність, спірність, дедуп, курсорні лаги.
6. Trust & Risk: scorecards вузлів (SLO/ATTR/RG/SEC), «час на трейс-пакет», прогноз Tier.
Кожна панель - з версіями формул і посиланнями на changelog.
6) Алертинг і ескалації
Багаторівневі SLO-алерти: попередження (burn-rate 2 ×), критика (burn-rate 10 ×), наступні дії (охолодження маршрутів/лімітів).
Композиційні тригери: «latency↑ + CR↓ + postback lag↑» → підозру на деградацію PSP.
Рольові канали: SRE/Payments/KYC/RGS/Маркетинг/Фінанси/Legal/RG; контекст відразу включає'traceId '/' runbook '/стоп-кнопку.
Snooze/Muting-політики для галасливих метрик, але без глушіння P1.
7) RCA и war-room
SLA на трейс-пакет: 60-90 с (P1/P2).
Шаблон RCA «без пошуку винних»: факт → гіпотеза → експеримент → висновок → дію → follow-up.
Дифф релізів (події § 2): автоматична перевірка колізій/формул/конфігів у вікні інциденту.
Post-mortem SLO: час до детекту, до паузи, до відкату, до стабілізації, до публікації нотаток.
8) Якість даних та лінії походження
Data Quality SLI: повнота, свіжість, унікальність ('eventId'), узгодженість валют/локалей.
Lineage: від вітрин/панелей до джерел (схеми/версії/власники).
Оракули: підписані агрегати (GGR/NetRev/SLO/RG),'formulaVersion','hash (inputs)','kid', період.
WORM-аудит: незмінювані логи формул/ключів/винятків/інвойсів.
9) Приватність, юрисдикції та безпека
Zero Trust: mTLS, короткоживучі токени, egress-allow-list, ротація ключів/JWKS.
PII-мінімізація: токенізація'playerId', детокенізація тільки в сейф-зонах; заборона ПДн в логах/метриках.
ABAC/ReBAC/SoD: доступ «бачу своє і узгоджене»; «вимірюю ≠ впливаю ≠ міняю».
Локалізація даних і DPIA/DPA для ринків; purge-політики і TTL.
10) Вартість телеметрії та управління кардинальністю
Cardinality Budget: ліміти на лейбли (userId/URL/UA - заборонені; routeId/campaignId - дозволені).
Гістограми замість перцентилів «на льоту»; exemplars для вибіркової деталізації.
Adaptive sampling трасувань: базовий відсоток + пріоритет для помилок/повільних шляхів/нових версій.
Downsampling/roll-ups по давності (1s→1m→5m); зберігання RAW-трейсів коротко, агрегатів - довше.
SLO-first: збираємо тільки те, що підтримує рішення (SLO/фінанси/комплаєнс).
11) Інтеграція з управлінням (SRE ↔ бізнес)
Guardrails релізів і кампаній прив'язані до SLO/бюджетів помилок.
Auto cut-over маршрутів APM/KYC при виході метрик за коридори.
RevShare/ліміти: множник якості'Q'( з SLO/ATTR/RG/SEC) впливає на ставки і квоти.
Scorecards вузлів → пріоритизація трафіку і доступ до пілотів.
12) Анти-патерни
«Багато істин» за формульними метриками і різними вікнами.
Offset-пагінація історії під навантаженням (використовуйте курсори).
PII в логах/панелях; експорт ПДн в BI.
Зоопарк постбеків і непідписані вебхуки → дублі/дірки/спори.
Граф без'traceId': панель красива, причинності немає.
Алерт-шторм без burn-rate і рольових маршрутів.
SPOF-агрегатор телеметрії без N + 1/DR.
Винятки без TTL/аудиту - «липкі» override-и.
13) Чек-листи
Проектування
- Онтологія сигналів і схем; версії та власники.
- W3C traceparent скрізь; Idempotency-Key на критичних шляхах.
- SLI/SLO і бюджети помилок; стоп-кнопки; guardrails.
- Політики кардинальності, sampling, retention/roll-ups.
- Privacy/PII: токенізація, DPA/DPIA, локалізація.
- Role-based алерти і runbooks.
Запуск
- Conformance для трас/метрик/логів; synthetic-прогони.
- Канаркова телеметрія при релізах; порівняльні панелі до/після.
- War-room плейбуки; SLA на трейс-пакет.
Експлуатація
- Щотижневі scorecards вузлів; burn-rate звіти.
- Щомісячні чейнджлоги формул і перегляд SLO/лімітів.
- DR/xaoc-вчення агрегаторів/шини/вітрин.
14) Дорожня карта зрілості
v1 (Foundation): базові метрики + логи, єдиний traceId, ручні RCA, первинні SLO.
v2 (Integration): OpenTelemetry повсюдно, service graph, guardrails, конвеєр оракулів, рольові алерти.
v3 (Automation): предиктивні деградації, auto cut-over APM/KYC/RGS, smart-reconciliation, динаміка лімітів по'Q'.
v4 (Networked Governance): міжчіпний обмін сигналами та оракулами, DAO-правила формул/SLO, прозорі казначейства.
15) Метрики успіху
Якість/ризик: MTTR↓, MTTD↓, спірність <X%, частка auto-паузи/відкату, покриття трас ≥ 95%.
Бізнес: uplift передбачуваності CR/FTD/ARPU/LTV, точність і своєчасність постбеків, стабільність NetRev.
Техніка: p95 API/вебхуків/шини/вітрин в коридорах; аптайм вузлів/CDN/SFU ≥ 99. 9%.
Економіка: Cost-to-Observe (CTO) на rps/event,% агрегатів з exemplars, зберігання RAW в лімітах.
Комплаєнс: 0 витоків ПДн, успішні DPIA/DPA-аудити, доступність WORM-логів 100%.
Коротке резюме
Осяжність - це виробничий контур довіри: одна онтологія, наскрізні трасування, каноніка метрик і подій, SLO-гардрейли і оракули даних, приватність за замовчуванням і дисципліна вартості телеметрії. Такий каркас робить ланцюги і вузли прозорими, передбачуваними і доказовими, а екосистему - швидкими в реакції і стійкою до ризиків.