GH GambleHub

Синхронізація аналітичних даних

1) Навіщо екосистемі синхронізація аналітики

Мережа об'єднує операторів, студії/RGS, афіліати, PSP/APM, KYC/AML-провайдерів і медіа. Щоб бачити єдину картину (воронки CR→FTD→ARPU/LTV, RG/комплаєнс, SLO транспорту, фінанси/RevShare), екосистемі потрібна канонічна, своєчасна і доказова синхронізація даних між ланцюгами і вітринами - без «двох істин», з явною історією змін і контролем вартості.


2) Онтологія та контракти даних

Сутності: `eventId`, `traceId`, `participantId`, `role` (operator/studio/affiliate/psp/kyc/stream), `jurisdiction`, `brandId`, `campaignId`, `apmRouteId`, `gameId`, `tableId`, `currency`, `schemaVersion`, `formulaVersion`.

Канонічні події (мінімум):
  • `click`, `session_start`, `registration`, `kyc_status`, `deposit`, `ftd`, `bet/spin`, `reward_granted`, `withdrawal`, `postback_sent/received`, `rg_guardrail_hit`, `stream_sli`.
Data Contracts:
  • схеми в Schema Registry (semver, сумісність полів);
  • власники, вікна агрегації, SLA свіжості і повноти;
  • політика помилок (nullable/заглушки), довідники (валюти, локалі, RTP-профілі).

Metric Store: версії формул (GGR/NetRev/CR/ARPU/LTV, K-фактори), їх власники і дата вступу - формула завжди пиниться у звіті.


3) Тимчасові семантики та вікна

Event Time vs Processing Time: агрегації повинні спиратися на час події, а не обробки.
Watermarks: для контролю «пізніх» подій; політика доприема (наприклад, T + 24h).
Вікна: ковзні/календарні, з перерахунком при довантажах.
Затримка як метрика: публікується'ingest _ lag'і'publish _ lag'для кожної вітрини.


4) Транспорт і режими синхронізації

1. CDC/стрімінг (реал-тайм):

шина подій (EDA), партіонування по'traceId/participantId';

«рівно один раз за змістом» через ідемпотентність споживачів і хеші тіл;

куровані топіки: сирі події, нормалізовані, агрегати/оракули.

2. Батч/мікробатч:

інкрементальні вивантаження з курсорною пагінацією (тимчасові/лог-курсори);

формати: Parquet/Avro зі схемою; маніфести партій.

3. API/вебхуки:

'/vN/events'з курсорами і'Idempotency-Key';

вебхуки підписані (JWS/HMAC), реєстр перегравання, backoff + джиттер.

4. Asset-сінк:

довідники/локалі/каталоги ігор як версіоновані бандли (хеші, TTL).


5) Ідемпотентність, дедуп і пізні події

Idempotency-Key і хеш тіла на критичних шляхах (платежі/постбеки).
Дедуплікація: вікно ± 5 хвилин/по watermark; зберігання «бачених» хешів.
Пізні події: політика upsert/зворотного перерахунку; changelog вітрин.
Exactly-once за бізнес-змістом: не вимагаємо «магії брокера», вимагаємо ідемпотентності споживачів і детермінованості схем.


6) Узгодження атрибуції та формул

Атрибуція: правило last eligible touch з вікнами по каналах/юрисдикціях, крос-девайс - тільки через токени (без сирого ПДн).
Формули метрик: кожен запис посилається на «formulaVersion»; MAJOR-зміни публікуються як події'data _ formula _ change'.
Backfill за правилами: при зміні формули допускається подвійна публікація (old/new) в перехідний період (frozen-period).


7) Data Quality: SLI/SLO та тести конформансу

SLI якості даних:
  • Свіжість (publish_lag p95),
  • Повнота (частка подій vs еталон),
  • Унікальність (частка дублікатів),
  • Узгодженість (валюта/локаль/ID),
  • Точність (контрольні суми/оракули),
  • Лінійність часу (пізні події в коридорі).
SLO (орієнтири):
  • publish_lag п95 ≤ 1-5 с (операційні панелі), ≤ 15 хв (фін. агрегати);
  • повнота ≥ 99. 5% в T + 15 хв, ≥ 99. 9% в T + 24h;
  • дублікати ≤ 0. 1‰; розбіжність з оракулом ≤ 0. 1–0. 3%.

Conformance-тести: схеми, обов'язкові поля, довідники, підписи вебхуків, курсорні вивантаження без перепусток.


8) Lineage, аудит і оракули

Lineage: від вітрини/дашборду до первинних наборів (схеми/версії/власники).
WORM-аудит: незмінювані журнали схем/формул/ключів/винятків.
Оракули (підписані зведення): GGR/NetRev/SLO/RG з «formulaVersion», «hash (inputs)», «kid», «traceId» - джерело істини для інвойсів та апеляцій.
Пробні «трейс-пакети»: SLA 60-90 с для P1/P2 інцидентів.


9) Приватність, локалізація та безпека

PII-мінімізація: токенізація'playerId', заборона ПДн в логах/вітринах, детокенізація тільки в сейф-зонах.
Локалізація: карти юрисдикцій (де зберігаємо/обробляємо класи даних).
Zero Trust: mTLS, короткоживучі токени, egress-allow-list, ротація ключів/JWKS.
ABAC/ReBAC/SoD: доступ «бачу своє і узгоджене»; «вимірюю ≠ впливаю ≠ міняю».


10) Фінансовий reconciliation і розрахунки

Каноніка Net Revenue (спрощено):
[
NetRev = GGR - BonusCost - Jackpot/PoolShare - PaymentFees - Chargebacks - Tax/Levy - FraudLosses
]
Звірка:
  • курсорні вивантаження, «ори» (підписані агрегати), контрольні суми;
  • статуси інвойсів, акти розбіжностей і SLA розбору;
  • FX-правила, NET7/14/30, холди і клау-беки.

11) Управління вартістю синхронізації

Політики кардинальності: заборона'userId '/сирого URL в лейблах; дозволені'routeId/campaignId'.
Downsampling/roll-ups: 1s→1m→5m; RAW-дані живуть коротко, агрегати - довше.
Adaptive sampling трасувань: базовий відсоток + пріоритет для помилок/повільних шляхів/нових версій.
SLO-first: збираємо тільки те, що підтримує рішення (SLO/фінанси/RG).


12) Дашборди синхронізації

Data Sync Overview: publish_lag, completeness, duplicates, late ratio, schema drift, помилки конформансу.
Attribution Health: своєчасність постбеків, вікна дедуп, спірні кейси.
Finance/Oracle: розбіжність агрегатів з оракулами, статуси інвойсів.
Jurisdiction Map: локалізація/потоки ПДн, дотримання DPA/DPIA.


13) Операції, інциденти, RCA

Алерти: burn-rate по свіжості/повноті, дрейф схем, сплеск дублікатів.
War-room: готові плейбуки для шини/вебхуків/CDC/вітрин; стоп-кнопки для агрегацій/формул.
RCA «без пошуку винних»: fakt→gipoteza→eksperiment→vyvod→deystviye; post-mortem SLO.


14) Анти-патерни

«Дві істини» за метриками/формулами і датами вступу.
Offset-пагінація історії під навантаженням (тільки курсори).
Сирий ПДн в логах/вітринах; відсутність токенізації.
Зоопарк постбеків без підписів та ідемпотентності → дублі/діри.
Змішування Event/Processing Time в агрегаціях.
Немає watermarks і політики пізніх подій.
Узгодження вручну (Excel/ручні вивантаження) замість оракулів.
Єдині великі таблиці з необмеженою кардинальністю лейблів.


15) Чек-листи

Проектування

  • Онтологія, Schema Registry, власники, довідники.
  • Metric Store с `formulaVersion` и frozen-period для MAJOR.

Тимчасові семантики (event time, watermarks), політика пізніх подій.

  • Транспорт: EDA/CDC, API/вебхуки з підписами, курсори, ідемпотентність.
  • Data Quality SLI/SLO, conformance-тести, алерти.
  • Privacy/Localization (DPIA/DPA), Zero Trust, ABAC/ReBAC/SoD.
  • Оракули і правила reconciliation.

Запуск

  • Пісочниця і навантажувальні/хаос-прогони шини/вітрин.
  • Канаркова синхронізація 1%→5%→25%→50%→100% з guardrails.
  • Дашборди publish_lag/completeness/duplicates/drift.
  • Документація формул і дат вступу; release-notes `data_formula_change`.

Експлуатація

  • Щотижневий звіт DQ; перегляд SLO/guardrails.
  • Місячні чейнджлоги схем/формул/доступів.
  • Регулярний DR/xaoc для брокера/інгесторів/вітрин.

16) Дорожня карта зрілості

v1 (Foundation): єдині схеми, базовий CDC/батч, курсори, DQ-SLI, ручний reconciliation.
v2 (Integration): watermarks і політика пізніх подій, оракули, дашборди синхронізації, auto-ретраї з джиттером.
v3 (Automation): предиктивний моніторинг свіжості/повноти, smart-reconciliation, авто-переіндексація, адаптивний sampling.
v4 (Networked Governance): міжланцюговий обмін оракулами/сигналами якості, DAO-правила формул і прозорі казначейства.


17) Метрики успіху

Якість даних: publish_lag p95, completeness %, duplicate ‰, late %, schema drift rate.
Однаковість: частка звітів із зафіксованим «formulaVersion», число MAJOR без інцидентів.
Фінанси: розбіжність з оракулами, частка авто-reconciliation, спірність <X%.
Операції: MTTD/MTTR інцидентів синхронізації, частка авто-стопів/роллбеків.
Комплаєнс: 0 витоків ПДн, успішні DPIA/DPA-перевірки, доступність WORM-логів 100%.
Економіка спостережуваності: Cost-to-Sync на rps/event, дотримання кардинальності.


Коротке резюме

Синхронізація аналітичних даних - це не копіювання таблиць, а протокол довіри і часу: каноніка схем і формул, event-time з watermarks, курсори та ідемпотентність, дедуп і пізні події, DQ-SLO і оракули, приватність і локалізація. Дотримуючись цього каркасу, екосистема отримує єдину, свіжу і доказову аналітику - основа для швидких рішень, чесних розрахунків і масштабованого зростання мережі.

Contact

Зв’яжіться з нами

Звертайтеся з будь-яких питань або за підтримкою.Ми завжди готові допомогти!

Розпочати інтеграцію

Email — обов’язковий. Telegram або WhatsApp — за бажанням.

Ваше ім’я необов’язково
Email необов’язково
Тема необов’язково
Повідомлення необов’язково
Telegram необов’язково
@
Якщо ви вкажете Telegram — ми відповімо й там, додатково до Email.
WhatsApp необов’язково
Формат: +код країни та номер (наприклад, +380XXXXXXXXX).

Натискаючи кнопку, ви погоджуєтесь на обробку даних.