Синхронізація аналітичних даних
1) Навіщо екосистемі синхронізація аналітики
Мережа об'єднує операторів, студії/RGS, афіліати, PSP/APM, KYC/AML-провайдерів і медіа. Щоб бачити єдину картину (воронки CR→FTD→ARPU/LTV, RG/комплаєнс, SLO транспорту, фінанси/RevShare), екосистемі потрібна канонічна, своєчасна і доказова синхронізація даних між ланцюгами і вітринами - без «двох істин», з явною історією змін і контролем вартості.
2) Онтологія та контракти даних
Сутності: `eventId`, `traceId`, `participantId`, `role` (operator/studio/affiliate/psp/kyc/stream), `jurisdiction`, `brandId`, `campaignId`, `apmRouteId`, `gameId`, `tableId`, `currency`, `schemaVersion`, `formulaVersion`.
Канонічні події (мінімум):- `click`, `session_start`, `registration`, `kyc_status`, `deposit`, `ftd`, `bet/spin`, `reward_granted`, `withdrawal`, `postback_sent/received`, `rg_guardrail_hit`, `stream_sli`.
- схеми в Schema Registry (semver, сумісність полів);
- власники, вікна агрегації, SLA свіжості і повноти;
- політика помилок (nullable/заглушки), довідники (валюти, локалі, RTP-профілі).
Metric Store: версії формул (GGR/NetRev/CR/ARPU/LTV, K-фактори), їх власники і дата вступу - формула завжди пиниться у звіті.
3) Тимчасові семантики та вікна
Event Time vs Processing Time: агрегації повинні спиратися на час події, а не обробки.
Watermarks: для контролю «пізніх» подій; політика доприема (наприклад, T + 24h).
Вікна: ковзні/календарні, з перерахунком при довантажах.
Затримка як метрика: публікується'ingest _ lag'і'publish _ lag'для кожної вітрини.
4) Транспорт і режими синхронізації
1. CDC/стрімінг (реал-тайм):
шина подій (EDA), партіонування по'traceId/participantId';
«рівно один раз за змістом» через ідемпотентність споживачів і хеші тіл;
куровані топіки: сирі події, нормалізовані, агрегати/оракули.
2. Батч/мікробатч:
інкрементальні вивантаження з курсорною пагінацією (тимчасові/лог-курсори);
формати: Parquet/Avro зі схемою; маніфести партій.
3. API/вебхуки:
'/vN/events'з курсорами і'Idempotency-Key';
вебхуки підписані (JWS/HMAC), реєстр перегравання, backoff + джиттер.
4. Asset-сінк:
довідники/локалі/каталоги ігор як версіоновані бандли (хеші, TTL).
5) Ідемпотентність, дедуп і пізні події
Idempotency-Key і хеш тіла на критичних шляхах (платежі/постбеки).
Дедуплікація: вікно ± 5 хвилин/по watermark; зберігання «бачених» хешів.
Пізні події: політика upsert/зворотного перерахунку; changelog вітрин.
Exactly-once за бізнес-змістом: не вимагаємо «магії брокера», вимагаємо ідемпотентності споживачів і детермінованості схем.
6) Узгодження атрибуції та формул
Атрибуція: правило last eligible touch з вікнами по каналах/юрисдикціях, крос-девайс - тільки через токени (без сирого ПДн).
Формули метрик: кожен запис посилається на «formulaVersion»; MAJOR-зміни публікуються як події'data _ formula _ change'.
Backfill за правилами: при зміні формули допускається подвійна публікація (old/new) в перехідний період (frozen-period).
7) Data Quality: SLI/SLO та тести конформансу
SLI якості даних:- Свіжість (publish_lag p95),
- Повнота (частка подій vs еталон),
- Унікальність (частка дублікатів),
- Узгодженість (валюта/локаль/ID),
- Точність (контрольні суми/оракули),
- Лінійність часу (пізні події в коридорі).
- publish_lag п95 ≤ 1-5 с (операційні панелі), ≤ 15 хв (фін. агрегати);
- повнота ≥ 99. 5% в T + 15 хв, ≥ 99. 9% в T + 24h;
- дублікати ≤ 0. 1‰; розбіжність з оракулом ≤ 0. 1–0. 3%.
Conformance-тести: схеми, обов'язкові поля, довідники, підписи вебхуків, курсорні вивантаження без перепусток.
8) Lineage, аудит і оракули
Lineage: від вітрини/дашборду до первинних наборів (схеми/версії/власники).
WORM-аудит: незмінювані журнали схем/формул/ключів/винятків.
Оракули (підписані зведення): GGR/NetRev/SLO/RG з «formulaVersion», «hash (inputs)», «kid», «traceId» - джерело істини для інвойсів та апеляцій.
Пробні «трейс-пакети»: SLA 60-90 с для P1/P2 інцидентів.
9) Приватність, локалізація та безпека
PII-мінімізація: токенізація'playerId', заборона ПДн в логах/вітринах, детокенізація тільки в сейф-зонах.
Локалізація: карти юрисдикцій (де зберігаємо/обробляємо класи даних).
Zero Trust: mTLS, короткоживучі токени, egress-allow-list, ротація ключів/JWKS.
ABAC/ReBAC/SoD: доступ «бачу своє і узгоджене»; «вимірюю ≠ впливаю ≠ міняю».
10) Фінансовий reconciliation і розрахунки
Каноніка Net Revenue (спрощено):[
NetRev = GGR - BonusCost - Jackpot/PoolShare - PaymentFees - Chargebacks - Tax/Levy - FraudLosses
]
Звірка:
- курсорні вивантаження, «ори» (підписані агрегати), контрольні суми;
- статуси інвойсів, акти розбіжностей і SLA розбору;
- FX-правила, NET7/14/30, холди і клау-беки.
11) Управління вартістю синхронізації
Політики кардинальності: заборона'userId '/сирого URL в лейблах; дозволені'routeId/campaignId'.
Downsampling/roll-ups: 1s→1m→5m; RAW-дані живуть коротко, агрегати - довше.
Adaptive sampling трасувань: базовий відсоток + пріоритет для помилок/повільних шляхів/нових версій.
SLO-first: збираємо тільки те, що підтримує рішення (SLO/фінанси/RG).
12) Дашборди синхронізації
Data Sync Overview: publish_lag, completeness, duplicates, late ratio, schema drift, помилки конформансу.
Attribution Health: своєчасність постбеків, вікна дедуп, спірні кейси.
Finance/Oracle: розбіжність агрегатів з оракулами, статуси інвойсів.
Jurisdiction Map: локалізація/потоки ПДн, дотримання DPA/DPIA.
13) Операції, інциденти, RCA
Алерти: burn-rate по свіжості/повноті, дрейф схем, сплеск дублікатів.
War-room: готові плейбуки для шини/вебхуків/CDC/вітрин; стоп-кнопки для агрегацій/формул.
RCA «без пошуку винних»: fakt→gipoteza→eksperiment→vyvod→deystviye; post-mortem SLO.
14) Анти-патерни
«Дві істини» за метриками/формулами і датами вступу.
Offset-пагінація історії під навантаженням (тільки курсори).
Сирий ПДн в логах/вітринах; відсутність токенізації.
Зоопарк постбеків без підписів та ідемпотентності → дублі/діри.
Змішування Event/Processing Time в агрегаціях.
Немає watermarks і політики пізніх подій.
Узгодження вручну (Excel/ручні вивантаження) замість оракулів.
Єдині великі таблиці з необмеженою кардинальністю лейблів.
15) Чек-листи
Проектування
- Онтологія, Schema Registry, власники, довідники.
- Metric Store с `formulaVersion` и frozen-period для MAJOR.
Тимчасові семантики (event time, watermarks), політика пізніх подій.
- Транспорт: EDA/CDC, API/вебхуки з підписами, курсори, ідемпотентність.
- Data Quality SLI/SLO, conformance-тести, алерти.
- Privacy/Localization (DPIA/DPA), Zero Trust, ABAC/ReBAC/SoD.
- Оракули і правила reconciliation.
Запуск
- Пісочниця і навантажувальні/хаос-прогони шини/вітрин.
- Канаркова синхронізація 1%→5%→25%→50%→100% з guardrails.
- Дашборди publish_lag/completeness/duplicates/drift.
- Документація формул і дат вступу; release-notes `data_formula_change`.
Експлуатація
- Щотижневий звіт DQ; перегляд SLO/guardrails.
- Місячні чейнджлоги схем/формул/доступів.
- Регулярний DR/xaoc для брокера/інгесторів/вітрин.
16) Дорожня карта зрілості
v1 (Foundation): єдині схеми, базовий CDC/батч, курсори, DQ-SLI, ручний reconciliation.
v2 (Integration): watermarks і політика пізніх подій, оракули, дашборди синхронізації, auto-ретраї з джиттером.
v3 (Automation): предиктивний моніторинг свіжості/повноти, smart-reconciliation, авто-переіндексація, адаптивний sampling.
v4 (Networked Governance): міжланцюговий обмін оракулами/сигналами якості, DAO-правила формул і прозорі казначейства.
17) Метрики успіху
Якість даних: publish_lag p95, completeness %, duplicate ‰, late %, schema drift rate.
Однаковість: частка звітів із зафіксованим «formulaVersion», число MAJOR без інцидентів.
Фінанси: розбіжність з оракулами, частка авто-reconciliation, спірність <X%.
Операції: MTTD/MTTR інцидентів синхронізації, частка авто-стопів/роллбеків.
Комплаєнс: 0 витоків ПДн, успішні DPIA/DPA-перевірки, доступність WORM-логів 100%.
Економіка спостережуваності: Cost-to-Sync на rps/event, дотримання кардинальності.
Коротке резюме
Синхронізація аналітичних даних - це не копіювання таблиць, а протокол довіри і часу: каноніка схем і формул, event-time з watermarks, курсори та ідемпотентність, дедуп і пізні події, DQ-SLO і оракули, приватність і локалізація. Дотримуючись цього каркасу, екосистема отримує єдину, свіжу і доказову аналітику - основа для швидких рішень, чесних розрахунків і масштабованого зростання мережі.