GH GambleHub

Життєвий цикл даних

1) Призначення та принципи

Мета: забезпечити передбачуваний, комплаєнтний і економічний рух даних від моменту появи до їх остаточного видалення, підтримуючи аналітичні, операційні та регуляторні сценарії.

Базові принципи:
  • Data as a Product: у кожного набору є власник, контракт, SLO, документація.
  • Schema-first: схеми обов'язкові; зміни - через версіонування.
  • Privacy-by-Design: мінімізація PII, псевдонімізація, регіональне зберігання.
  • Observability-by-Default: метрики, логування доступу, lineage.
  • Cost-aware: рівні зберігання, TTL, семплювання, компресія.

2) Фази життєвого циклу

2. 1 Створення та збір (Create/Collect)

Джерела: продукти (веб/мобайл), бекенди, платежі, KYC/AML провайдери, ігри/студії, маркетинг, операційні логи.
Ідентифікатори: `event_id`, `user. pseudo_id`, `session_id`, `trace_id`.
Контракти: JSON/Avro схеми, AsyncAPI/OpenAPI.
Якість на вході: валідація схем, обов'язкові поля, ліміти розміру, анти-дублікати.
Приватність: токенізація чутливих полів, гео-маршрутизація ingest (EEA/UK/BR).

2. 2 Прийом та первинне зберігання (Ingest & Raw)

Транспорт: HTTP/gRPC → Edge → шина (Kafka/Redpanda).
Raw-шар (Bronze): append-only, незмінні payload'и (для форензики), партиціонування за часом/ринку/тенанту.
Політики: дедуп по'( event_id, source)', DLQ для «битих» подій, Legal Hold мітки.

2. 3 Обробка та очищення (Refine)

Нормалізація (Silver): типізація, дедуплікація, довідники, FX/таймзони, збагачення.
Якість (DQ): повнота/унікальність/діапазони/референтна цілісність.
Reprocessing: ідемпотентні конвеєри, time-travel, контрольовані backfill'и.

2. 4 Споживання і сервінг (Serve/Use)

Gold-вітрини: BI/звітність (GGR, RG, AML), продуктові і ризик-моделі, real-time вітрини.
Доступ: SQL/Trino, семантичний шар метрик, API/GraphQL, Feature Store.
SLA свіжості: наприклад, Gold-щоденні вітрини готові до 06:00 локального часу.

2. 5 Обмін і поширення (Share/Publish)

Внутрішні споживачі: Аналітика, Продукт, Ризик, Комплаєнс, Маркетинг, Фінанси.
Зовнішні вивантаження: регулятори, партнери/провайдери; незмінні пакети (PDF/CSV/JSON + hash).
Контрольовані канали: підписані артефакти, аудит завантажень/експортів.

2. 6 Архівування та зберігання (Archive/Retain)

Політики зберігання: за типами даних і юрисдикцій (наприклад, регуляторні - 5-7 років).
Шари зберігання: hot/warm/cold, WORM/Object Lock для незмінності.
Індексація архіву: каталоги, мітки версій/ринків, швидкий пошук метаданих.

2. 7 Видалення і фінал (Dispose)

Звичайне видалення: TTL/ретеншн; безпечне очищення, оновлення індексів.
Правові операції: DSAR/RTBF (право на забуття), виключення за законним обов'язком зберігання, Legal Hold (заморожування видалення).
Верифікація: звіти про видалення, журнал аудиту, контроль крос-реплік.

3) Класифікація та каталог

Категорії чутливості: public / internal / confidential / restricted.
Домени: Payments, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.
Каталог даних: опис, власник, SLA свіжості, схеми, lineage, рівні доступу.
Теги: `jurisdiction`, `tenant`, `pii_class`, `retention_class`, `legal_hold`.

4) Модель Lakehouse і схеми

Bronze/Silver/Gold: чіткі правила перетворень і відповідальності.
Формати: Parquet + табличний формат з ACID (Delta/Iceberg/Hudi).
Еволюція схем: семантичні версії, лонгітюдна сумісність, міграції з подвійним записом для breaking-змін.
Registry: Schema Registry, CI-валідація контрактів, consumer-driven tests.

5) Якість даних (DQ)

Метрики якості:
  • Completeness (повнота): частка фактично отриманих подій/рядків.
  • Validity: частка записів, що пройшли схемну валідацію.
  • Uniqueness: контроль дублікатів.
  • Consistency: відповідність довідникам і зв'язкам.
  • Freshness: затримка надходження/матеріалізації.
Практики:
  • Правила DQ як код (YAML/SQL-тести), дашборди, алерти SLO.
  • Авто-фолбек при деградації (останній коректний зріз).

6) Приватність і комплаєнс

Мінімізація PII: зберігати псевдо-ID, винести маппінги в ізольований контур.
Маскування і RLS/CLS: на рівні стовпчиків/рядків; динамічні політики.
Регіоналізація: data residency по ринках; роздільні каталоги/ключі шифрування.
DSAR/RTBF: керовані проекції, селективні редагування, аудит видач.
Legal Hold: мітки заморозки, незмінні архіви, протоколювання доступу.

7) Доступ і безпека

Автентифікація/авторизація: SSO, RBAC/ABAC, атрибути юрисдикцій і ролей.
Шифрування: TLS in-transit; at-rest через KMS/CMK; Ротація ключів.
Журнали доступу: хто/що/коли/звідки; алерти на масові експорт/скани.
Поділ обов'язків: різні ролі для прод/аналітики/адмінів/рев'юерів.

8) Лінійність (lineage) і спостережуваність

Технічний lineage: від джерела → трансформації → вітрини → звіти.
Операційний lineage: зв'язку з релізами, фічфлагами, моделями, правилами AML/RG.
Метрики платформи: throughput, lag, failure-rate, cost/query, cost/GB.
Трейсинг: передача'trace _ id'з додатків до вітрин/алертів.

9) Моделі часу і ретропроцеси

Event-time vs Processing-time: пріоритет event-time, watermarks/allowed lateness.
Backfill и reprocessing: ідемпотентні pipeline'и, time-travel, контроль «подвійного обліку».
Збереження станів: TTL, снапшоти, відновлення після збоїв.

10) Економіка і cost-контроль

Партіонування (дата/ринок/тенант), кластеризація/Z-ordering.
Семплювання для високочастотної аналітики (не для транзакцій/комплаєнсу).
Багатошарове зберігання (hot/warm/cold), автоматичні TTL.
Budget/chargeback за командами, ліміти на важкі запити і backfill.

11) Процеси і RACI

R (Responsible): Data Platform (інгест/сховища/оркестрація), Data Engineering (трансформації), Доменні власники (Contracts/DQ/SLO).
A (Accountable): Head of Data/Chief Data Officer.
C (Consulted): Compliance/Legal/DPO, Архітектура, SRE, Security.
I (Informed): BI/Продукт/Маркетинг/Фінанси/Операції.

12) SLO/SLI (приблизні цілі)

ПоказникМета
Freshness Silver p95≤ 15 хвилин
Gold-щоденні вітринидо 06:00 лок. часу
Completeness за T≥ 99. 5%
Validity (схеми)≥ 99. 9%
Доступність сервінгу≥ 99. 9%
Час реакції на DSAR≤ 30 днів (суворіше по локальному праву)

13) Дашборди

Теплова карта свіжості по доменах/ринках.
Completeness/Validity по потоках.
Вартість зберігання і запитів (по шарах і командах).
Карта lineage для критичних звітів (регуляторка, GGR, RG/AML).
Черги DSAR/RTBF, статуси Legal Hold.

14) Шаблони політик зберігання (приклад)

Клас данихHotWarmArchive (WORM)TTL разом
Транзакції платежів7 д60 д7 років7 років
Події гри (аналітика)3 д30 д1-2 роки1-2 роки
Комплаєнс/AML артефакти14 д90 д5-7 років5-7 років
Операційні логи3 д30 д1 рік1 рік

Фактичні терміни визначаються Legal/DPO і локальним правом.

15) Документація та стандарти

Data Product page: власник, призначення, SLA, схеми, DQ-правила, контакти.
Change log: версії схем/логіки, вплив (impact analysis), міграції.
Runbooks: reprocessing, backfill, аварійні сценарії, фриз-кнопка.

16) Дорожня карта впровадження

MVP (4-6 тижнів):

1. Каталог даних і класифікація (топ-домени), базові схеми і регістр.

2. Lakehouse Bronze/Silver, ingestion з валідацією і дедупом.

3. 1-2 Gold-вітрини (наприклад, GGR і конверсія).

4. Мінімальні DQ-правила і дашборд Freshness/Completeness.

5. Політики зберігання та RBAC на доступ.

Фаза 2 (6-12 тижнів):
  • Лінедж, семантичний шар метрик, DSAR/RTBF процедури.
  • Регіоналізація (EEA/UK), WORM для регуляторних артефактів, Legal Hold.
  • Оптимізація вартості, алерти SLO, звітність по бюджету.
Фаза 3 (12 + тижнів):
  • Data Mesh (доменні продукти), consumer-driven contracts і тести.
  • Автосимуляція impact при зміні схем/логіки, реплеї.
  • Єдина панель відповідності (регуляторка, доступ, DQ, lineage).

17) Чек-лист перед продом

  • Схеми затверджені, контракти в регістрі, тести на сумісність.
  • DQ-правила активні, алерти сконфігуровані, SLO задані.
  • RBAC/ABAC: ролі перевірені, журнали доступу включені.
  • Політики зберігання/видалення/архіву підтверджені Legal/DPO.
  • Процедури DSAR/RTBF/Legal Hold документовані і протестовані.
  • Лінедж/метрики/вартість відображаються в дашбордах.
  • Runbooks для backfill/reprocessing/DR готові.

18) Часті помилки і як їх уникнути

Немає єдиної класифікації і каталогу: вводьте обов'язкові картки Data Product.
Сирі дані без схем: schema-first + CI-валідація.
Відсутність видаленості: проектуйте TTL і процеси RTBF з самого початку.
Змішування PII та аналітики: зберігайте маппінги окремо, застосовуйте маскування.
Gold без власника і SLO: призначайте owner і цілі свіжості.
Некерована вартість: партії, компресія, tiered-storage, квоти.

19) Глосарій (коротко)

DSAR/RTBF - запит суб'єкта даних/право на видалення.
Legal Hold - заморожування видалення з юридичних підстав.
Lineage - простежуваність походження і трансформацій.
Data Product - керована продуктова одиниця даних з SLA.
DQ - правила і метрики якості даних.
Lakehouse - об'єднання data lake і ACID-таблиць.

20) Підсумок

Життєвий цикл даних - це керована система домовленостей, а не просто склад файлів. Чіткі контракти і схеми, класифікація і каталог, вимірна якість, приватність і безпека, економна архітектура зберігання і прозорий lineage роблять дані надійним активом, який підтримує продукт, комплаєнс і аналітику без сюрпризів і «прихованих» ризиків.

Contact

Зв’яжіться з нами

Звертайтеся з будь-яких питань або за підтримкою.Ми завжди готові допомогти!

Telegram
@Gamble_GC
Розпочати інтеграцію

Email — обов’язковий. Telegram або WhatsApp — за бажанням.

Ваше ім’я необов’язково
Email необов’язково
Тема необов’язково
Повідомлення необов’язково
Telegram необов’язково
@
Якщо ви вкажете Telegram — ми відповімо й там, додатково до Email.
WhatsApp необов’язково
Формат: +код країни та номер (наприклад, +380XXXXXXXXX).

Натискаючи кнопку, ви погоджуєтесь на обробку даних.