GH GambleHub

Осяжність ланцюгів і вузлів

1) Завдання і об'єкт спостереження

Осяжність ланцюгів і вузлів - це здатність екосистеми бачити, вимірювати і пояснювати поведінку міжчіпних потоків (трафік/події/платежі/КУС/контент) і вузлів (оператори, студії/RGS, PSP/APM, KYC/AML-провайдери, афіліати, агрегатори, стрім-вузли). Цілі:
  • наскрізна причинність (від кліка до інвойсу);
  • передбачувані SLO і керований ризик;
  • швидкі RCA і низький MTTR;
  • доказовість (підписані зведення, WORM-аудит) при мінімальній вартості телеметрії.

2) Онтологія спостережуваності

Сутності:
  • `chainId`, `nodeId`, `role`(operator/studio/psp/kyc/affiliate/stream), `jurisdiction`, `env`(prod/stage/sbx), `traceId`, `spanId`, `routeId`, `campaignId`, `tableId`, `apmRouteId`.
Канонічні події:
  • `click`, `session_start`, `registration`, `kyc_status`, `deposit/withdrawal`, `ftd`, `bet/spin`, `reward_granted`, `postback_sent/received`, `jackpot_contribution/trigger`, `stream_sli`, `rg_guardrail_hit`.
Класи сигналів:
  • Metrics (RED/USE/Golden Signals), Traces (W3C traceparent), Logs (структурні), Events (бізнес), RUM/Synthetic (клієнт/канали), Audit/WORM (незмінні).

Всі схеми версіонуються в Schema Registry; часи - UTC/ISO-8601.


3) Транспорт і кореляція

OpenTelemetry: єдиний формат метрик/логів/спанів; експортери в TSDB/обробники.
W3C Trace Context: 'traceparent '/' tracestate'прокидаються через редиректи, API, вебхуки, шину.
Ідемпотентність: 'Idempotency-Key'на критичних шляхах (платежі/постбеки).
Exactly-once за змістом: дедуп за хешами/курсорна історія, реєстр перегравання вебхуків.
Exemplars: пов'язуємо гістограми latency з конкретними'traceId'для швидких RCA.


4) Модель SLI/SLO і бюджети помилок

Golden Signals: latency, traffic, errors, saturation.
RED (НТТР/шлюзи): Rate, Errors, Duration.
USE (інфраструктура): Utilization, Saturation, Errors.

Приклади SLI/SLO (орієнтири):
  • Вебхуки: доставка ≥ 99. 9%, p95 ≤ 1-2 с.
  • API партнерів: p95 ≤ 150–300 мс, error rate ≤ 0. 3–0. 5%.
  • Шина подій: lag p95 ≤ 200-500 мс; доставка ≥ 99. 9%.
  • Платежі/АРМ: CR в коридорі профілю; e2e авторизація ≤ X с.
  • KYC: pass-rate і SLA етапів за профілями юрисдикцій.
  • Live/SFU/CDN: e2e 2-3 с, packet loss ≤ 1%, аптайм ≥ 99. 9%.
  • Дашборди: свіжість ≤ 1-5 с; p95 рендера ≤ 1. 5–2. 0 с.

Бюджет помилок: фіксуємо періоди (наприклад, 30 днів), типи помилок (5xx, таймаути, порушення SLO), правила auto bonus/malus і стоп-кнопки.


5) Дашборди: шари та артефакти

1. Service Graph (tsepi↔uzly): топологія, потоки rps/eps, p95/p99, error-rate, saturation, heatmap по юрисдикціях.
2. Business Flow: klik→registratsiya→KYC→depozit→FTD→stavka/raund→vyplata; конверсійні воронки і вікна атрибуції.
3. Payments/KYC: CR × гео × пристрій, код-мапи відмов, latency етапів, auto cut-over з анотаціями.
4. Content/RGS/Live: round-trip, error-rate, SFU/CDN SLI, таблиці лідерів і джекпоти.
5. Postbacks/Attribution: своєчасність, спірність, дедуп, курсорні лаги.
6. Trust & Risk: scorecards вузлів (SLO/ATTR/RG/SEC), «час на трейс-пакет», прогноз Tier.

Кожна панель - з версіями формул і посиланнями на changelog.


6) Алертинг і ескалації

Багаторівневі SLO-алерти: попередження (burn-rate 2 ×), критика (burn-rate 10 ×), наступні дії (охолодження маршрутів/лімітів).
Композиційні тригери: «latency↑ + CR↓ + postback lag↑» → підозру на деградацію PSP.
Рольові канали: SRE/Payments/KYC/RGS/Маркетинг/Фінанси/Legal/RG; контекст відразу включає'traceId '/' runbook '/стоп-кнопку.
Snooze/Muting-політики для галасливих метрик, але без глушіння P1.


7) RCA и war-room

SLA на трейс-пакет: 60-90 с (P1/P2).
Шаблон RCA «без пошуку винних»: факт → гіпотеза → експеримент → висновок → дію → follow-up.
Дифф релізів (події § 2): автоматична перевірка колізій/формул/конфігів у вікні інциденту.
Post-mortem SLO: час до детекту, до паузи, до відкату, до стабілізації, до публікації нотаток.


8) Якість даних та лінії походження

Data Quality SLI: повнота, свіжість, унікальність ('eventId'), узгодженість валют/локалей.
Lineage: від вітрин/панелей до джерел (схеми/версії/власники).
Оракули: підписані агрегати (GGR/NetRev/SLO/RG),'formulaVersion','hash (inputs)','kid', період.
WORM-аудит: незмінювані логи формул/ключів/винятків/інвойсів.


9) Приватність, юрисдикції та безпека

Zero Trust: mTLS, короткоживучі токени, egress-allow-list, ротація ключів/JWKS.
PII-мінімізація: токенізація'playerId', детокенізація тільки в сейф-зонах; заборона ПДн в логах/метриках.
ABAC/ReBAC/SoD: доступ «бачу своє і узгоджене»; «вимірюю ≠ впливаю ≠ міняю».
Локалізація даних і DPIA/DPA для ринків; purge-політики і TTL.


10) Вартість телеметрії та управління кардинальністю

Cardinality Budget: ліміти на лейбли (userId/URL/UA - заборонені; routeId/campaignId - дозволені).
Гістограми замість перцентилів «на льоту»; exemplars для вибіркової деталізації.
Adaptive sampling трасувань: базовий відсоток + пріоритет для помилок/повільних шляхів/нових версій.
Downsampling/roll-ups по давності (1s→1m→5m); зберігання RAW-трейсів коротко, агрегатів - довше.
SLO-first: збираємо тільки те, що підтримує рішення (SLO/фінанси/комплаєнс).


11) Інтеграція з управлінням (SRE ↔ бізнес)

Guardrails релізів і кампаній прив'язані до SLO/бюджетів помилок.
Auto cut-over маршрутів APM/KYC при виході метрик за коридори.
RevShare/ліміти: множник якості'Q'( з SLO/ATTR/RG/SEC) впливає на ставки і квоти.
Scorecards вузлів → пріоритизація трафіку і доступ до пілотів.


12) Анти-патерни

«Багато істин» за формульними метриками і різними вікнами.
Offset-пагінація історії під навантаженням (використовуйте курсори).
PII в логах/панелях; експорт ПДн в BI.
Зоопарк постбеків і непідписані вебхуки → дублі/дірки/спори.
Граф без'traceId': панель красива, причинності немає.
Алерт-шторм без burn-rate і рольових маршрутів.
SPOF-агрегатор телеметрії без N + 1/DR.
Винятки без TTL/аудиту - «липкі» override-и.


13) Чек-листи

Проектування

  • Онтологія сигналів і схем; версії та власники.
  • W3C traceparent скрізь; Idempotency-Key на критичних шляхах.
  • SLI/SLO і бюджети помилок; стоп-кнопки; guardrails.
  • Політики кардинальності, sampling, retention/roll-ups.
  • Privacy/PII: токенізація, DPA/DPIA, локалізація.
  • Role-based алерти і runbooks.

Запуск

  • Conformance для трас/метрик/логів; synthetic-прогони.
  • Канаркова телеметрія при релізах; порівняльні панелі до/після.
  • War-room плейбуки; SLA на трейс-пакет.

Експлуатація

  • Щотижневі scorecards вузлів; burn-rate звіти.
  • Щомісячні чейнджлоги формул і перегляд SLO/лімітів.
  • DR/xaoc-вчення агрегаторів/шини/вітрин.

14) Дорожня карта зрілості

v1 (Foundation): базові метрики + логи, єдиний traceId, ручні RCA, первинні SLO.
v2 (Integration): OpenTelemetry повсюдно, service graph, guardrails, конвеєр оракулів, рольові алерти.
v3 (Automation): предиктивні деградації, auto cut-over APM/KYC/RGS, smart-reconciliation, динаміка лімітів по'Q'.
v4 (Networked Governance): міжчіпний обмін сигналами та оракулами, DAO-правила формул/SLO, прозорі казначейства.


15) Метрики успіху

Якість/ризик: MTTR↓, MTTD↓, спірність <X%, частка auto-паузи/відкату, покриття трас ≥ 95%.
Бізнес: uplift передбачуваності CR/FTD/ARPU/LTV, точність і своєчасність постбеків, стабільність NetRev.
Техніка: p95 API/вебхуків/шини/вітрин в коридорах; аптайм вузлів/CDN/SFU ≥ 99. 9%.
Економіка: Cost-to-Observe (CTO) на rps/event,% агрегатів з exemplars, зберігання RAW в лімітах.
Комплаєнс: 0 витоків ПДн, успішні DPIA/DPA-аудити, доступність WORM-логів 100%.


Коротке резюме

Осяжність - це виробничий контур довіри: одна онтологія, наскрізні трасування, каноніка метрик і подій, SLO-гардрейли і оракули даних, приватність за замовчуванням і дисципліна вартості телеметрії. Такий каркас робить ланцюги і вузли прозорими, передбачуваними і доказовими, а екосистему - швидкими в реакції і стійкою до ризиків.

Contact

Зв’яжіться з нами

Звертайтеся з будь-яких питань або за підтримкою.Ми завжди готові допомогти!

Розпочати інтеграцію

Email — обов’язковий. Telegram або WhatsApp — за бажанням.

Ваше ім’я необов’язково
Email необов’язково
Тема необов’язково
Повідомлення необов’язково
Telegram необов’язково
@
Якщо ви вкажете Telegram — ми відповімо й там, додатково до Email.
WhatsApp необов’язково
Формат: +код країни та номер (наприклад, +380XXXXXXXXX).

Натискаючи кнопку, ви погоджуєтесь на обробку даних.