GH GambleHub

Деректердің өмірлік циклі

1) Мақсаты және қағидаттары

Мақсаты: талдамалық, операциялық және реттеушілік сценарийлерді қолдай отырып, деректер пайда болған сәттен бастап оларды түпкілікті жоюға дейін болжамды, комплаентті және үнемді қозғалысты қамтамасыз ету.

Негізгі қағидаттар:
  • Data as a Product: әрбір жиынтықтың иесі, келісімшарт, SLO, құжаттама бар.
  • Schema-first: схемалар міндетті; өзгерістер - нұсқалау арқылы.
  • Privacy-by-Design: PII-ді барынша азайту, бүркеншік атау, аймақтық сақтау.
  • Observability-by-Default: метрика, логин, lineage.
  • Cost-aware: сақтау деңгейлері, TTL, семплеу, компрессия.

2) Тіршілік циклінің фазалары

2. 1 Жасау және жинау (Create/Collect)

Дереккөздер: өнімдер (веб/мобайл), бэкендтер, төлемдер, KYC/AML провайдерлері, ойындар/студиялар, маркетинг, операциялық логтар.
Идентификаторлар: 'event _ id', 'user. pseudo_id`, `session_id`, `trace_id`.
Келісімшарттар: JSON/Euro схемасы, AsyncAPI/OpenAPI.
Кіре берістегі сапа: схемаларды валидациялау, міндетті өрістер, өлшем лимиттері, анти-дубликаттар.
Жекелік: сезімтал өрістерді токенизациялау, ingest гео-маршруттау (EEA/UK/BR).

2. 2 Қабылдау және бастапқы сақтау (Ingest & Raw)

Көлік: HTTP/gRPC → Edge → шина (Kafka/Redpanda).
Raw-қабат (Bronze): append-only, өзгермейтін payload's (форензика үшін), уақыт/нарық/тенант бойынша партиялануы.
Саясаттар: '(event_id, source)' бойынша дедуп, «сынған» оқиғалар үшін DLQ, Legal Hold белгілері.

2. 3 Өңдеу және тазалау (Refine)

Қалыпқа келтіру (Silver): типтеу, дедупликация, анықтамалықтар, FX/таймзондтар, байыту.
Сапасы (DQ): толықтығы/бірегейлігі/диапазондары/референттік тұтастығы.
Reprocessing: демпотенттік конвейерлер, time-travel, бақыланатын backfill's.

2. 4 Тұтыну және сервинг (Serve/Use)

Gold-витриналар: BI/есептілік (GGR, RG, AML), азық-түлік және тәуекел модельдері, real-time витриналар.
Қол жеткізу: SQL/Trino, метриктердің семантикалық қабаты, API/GraphQL, Feature Store.
SLA жаңалық: мысалы, Gold-күнделікті витриналар жергілікті уақыт бойынша 06: 00-ге дейін дайын.

2. 5 Алмасу және тарату (Share/Publish)

Ішкі тұтынушылар: Талдау, Өнім, Тәуекел, Комплаенс, Маркетинг, Қаржы.
Сыртқы түсірулер: реттеушілер, әріптестер/провайдерлер; өзгермейтін пакеттер (PDF/CSV/JSON + hash).
Бақыланатын арналар: қол қойылған артефактілер, жүктеме/экспорт аудиті.

2. 6 Мұрағаттау және сақтау (Archive/Retain)

Сақтау саясаты: деректер түрлері және юрисдикциялар бойынша (мысалы, реттеушілер - 5-7 жыл).
Сақтау қабаттары: hot/warm/cold, WORM/Object Lock.
Мұрағатты индекстеу: каталогтар, нұсқа/нарық белгілері, метадеректерді жылдам іздеу.

2. 7 Жою және аяқтау (Dispose)

Әдеттегі жою: TTL/ретеншн; қауіпсіз тазалау, индекстерді жаңарту.
Құқықтық операциялар: DSAR/RTBF (ұмыту құқығы), сақтаудың заңды міндеті бойынша ерекшеліктер, Legal Hold (жоюды мұздату).
Верификация: жою туралы есептер, аудит журналы, кросс-репликаларды бақылау.

3) Жіктеу және каталог

Сезімталдық санаттары: public/internal/confidential/restricted.
Домены: Payments, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.
Деректер каталогы: сипаттама, иесі, жаңалық SLA, схемалар, сызбалар, қатынау деңгейлері.
Теги: `jurisdiction`, `tenant`, `pii_class`, `retention_class`, `legal_hold`.

4) Lakehouse моделі және схемалары

Bronze/Silver/Gold: өзгерістердің және жауапкершіліктің нақты ережелері.
Пішімдер: ACID (Delta/Iceberg/Hudi) бар Parquet + кесте форматы.
Схемалардың эволюциясы: семантикалық нұсқалар, ұзын гетюдтік үйлесімділік, breaking-өзгерістерге арналған қос жазбалы көші-қон.
Registry: Schema Registry, келісімшарттарды CI-валидациялау, consumer-driven tests.

5) Деректер сапасы (DQ)

Сапа өлшемдері:
  • Completeness (толықтығы): іс жүзінде алынған оқиғалар/жолдардың үлесі.
  • Validity: схемалық валидациядан өткен жазбалардың үлесі.
  • Uniqueness: көшірмелерді бақылау.
  • Consistency: анықтамалықтар мен байланыстарға сәйкестік.
  • Freshness: түсу/материалдандыру кідірісі.
Тәжірибелер:
  • DQ ережелері код ретінде (YAML/SQL-тесттер), дашбордтар, SLO алаңдары.
  • Деградация кезіндегі авто-фоллбэк (соңғы дұрыс кесінді).

6) Құпиялылық және комплаенс

PII азайту: псевдо-ID сақтау, маппингтерді оқшауланған контурға шығару.
Жасыру және RLS/CLS: бағандар/жолдар деңгейінде; серпінді саясат.
Өңірлендіру: нарықтар бойынша data residency; жеке каталогтар/шифрлау кілттері.
DSAR/RTBF: басқарылатын проекциялар, селективті редакциялар, беру аудиті.
Legal Hold: мұздату белгілері, өзгермейтін мұрағаттар, қатынау хаттамалары.

7) Қол жеткізу және қауіпсіздік

Аутентификация/авторизация: SSO, RBAC/ABAC, юрисдикциялар мен рөлдердің атрибуттары.
Шифрлау: TLS in-transit; KMS/CMK арқылы at-rest; кілттерді ротациялау.
Кіру журналдары: кім/не/қашан/қайдан; жаппай экспортқа/сканерге арналған алерталар.
Міндеттерді бөлу: өнім/талдау/әкімшілер/ревьюерлер үшін әртүрлі рөлдер.

8) Сызықтық (lineage) және бақылау

Техникалық lineage: көз → трансформация → витриналар → есептер.
Операциялық lineage: релиздермен, фичфлагтармен, модельдермен, AML/RG қағидаларымен байланыстар.
Платформа өлшемдері: throughput, lag, failure-rate, cost/query, cost/GB.
Трейсинг: 'trace _ id' бағдарламаларынан витриналарға/алерталарға дейін жіберу.

9) Уақыт және ретропроцесс модельдері

Event-time vs Processing-time: приоритет event-time, watermarks/allowed lateness.
Backfill және reprocessing: іспеттес pipeline's, time-travel, «қосарланған есепті» бақылау.
Күйді сақтау: TTL, снапшоттар, ақаулардан кейін қалпына келтіру.

10) Экономика және cost-бақылау

Партиялану (күні/нарық/тенант), кластерлеу/Z-ordering.
Жоғары жиілікті талдау үшін семплирлеу (транзакциялар/комплаенс үшін емес).
Көп қабатты сақтау (hot/warm/cold), автоматты TTL.
Budget/chargeback командалар бойынша, ауыр сұрауларға және backfill лимиттері.

11) Процестер және RACI

R (Responsible): Data Platform (ингест/сақтау орындары/оркестрі), Data Engineering (трансформациялар), Домен иелері (Contracts/DQ/SLO).
A (Accountable): Head of Data/Chief Data Officer.
C (Consulted): Compliance/Legal/DPO, Сәулет, SRE, Security.
I (Informed): BI/Өнім/Маркетинг/Қаржы/Операциялар.

12) SLO/SLI (болжамды мақсаттар)

КөрсеткішМақсаты
Freshness Silver p95≤ 15 минут
Gold-күнделікті витриналар06:00 лок. уақыт
Completeness за T≥ 99. 5%
Validity (сұлбалар)≥ 99. 9%
Сервингтің қол жетімділігі≥ 99. 9%
DSAR жауап беру уақыты30 күнге ≤ (жергілікті құқық бойынша қатаңырақ)

13) Дашбордтар

Домендер/базарлар бойынша жаңарудың жылу картасы.
Ағындар бойынша Completeness/Validity.
Сақтау және сұрау салу құны (қабаттар мен командалар бойынша).
Сыни есептерге арналған lineage картасы (реттегіш, GGR, RG/AML).
DSAR/RTBF кезектері, Legal Hold мәртебелері.

14) Сақтау саясатының үлгілері (мысал)

Деректер класыHotWarmArchive (WORM)TTL жиыны
Төлем транзакциялары7 д60 д7 жыл7 жыл
Ойын оқиғалары (талдау)3 д30 д1-2 жыл1-2 жыл
Комплаенс/AML артефактілері14 д90 д5-7 жыл5-7 жыл
Операциялық логтар3 д30 д1 жыл1 жыл

Нақты мерзімдер Legal/DPO және жергілікті құқықпен айқындалады.

15) Құжаттама және стандарттар

Data Product page: иесі, мақсаты, SLA, схемалар, DQ ережелері, контактілер.
Change log: схемалар/логика нұсқалары, әсері (impact analysis), көші-қоны.
Runbooks: reprocessing, backfill, апаттық сценарийлер, фриз түймешігі.

16) Енгізу жол картасы

MVP (4-6 апта):

1. Деректер каталогы және жіктеу (топ-домендер), базалық схемалар және тіркелім.

2. Lakehouse Bronze/Silver, ingestion валидациямен және дедуппен.

3. 1-2 Gold-витриналар (мысалы, GGR және конверсия).

4. Ең аз DQ-ережелер және Freshness/Completeness дашборды.

5. RBAC және сақтау саясаты.

2-фаза (6-12 апта):
  • Линедж, метриканың семантикалық қабаты, DSAR/RTBF процедуралары.
  • Аймақтандыру (EEA/UK), реттеуші артефактілерге арналған WORM, Legal Hold.
  • Құнын оңтайландыру, SLO тәуекелдері, бюджет бойынша есептілік.
3-фаза (12 + апта):
  • Data Mesh (домендік өнімдер), consumer-driven contracts және тестілер.
  • Схема/логика, реплика өзгерген кезде impact автосимуляциясы.
  • Бірыңғай сәйкестік панелі (реттегіш, қатынау, DQ, lineage).

17) Азық-түлік алдындағы чек-парағы

  • Схемалар бекітілді, тіркелімде келісімшарттар, үйлесімділік тестілері.
  • DQ-ережелер белсенді, алерттар конфигурацияланған, SLO берілген.
  • RBAC/ABAC: рөлдер тексерілді, кіру журналдары қосылды.
  • Сақтау/жою/мұрағат саясаты Заңды/DPO расталған.
  • DSAR/RTBF/Legal Hold рәсімдері құжатталған және сыналған.
  • Линедж/метриктер/құны дашбордтарда көрсетіледі.
  • backfill/reprocessing/DR үшін Runbooks дайын.

18) Жиі қателер және оларды болдырмау

Бірыңғай жіктеу мен каталог жоқ: міндетті Data Product карточкаларын енгізіңіз.
Схемасыз шикі деректер: schema-first + CI-валидация.
Жою жоқ: TTL және RTBF процестерін басынан бастап жобалаңыз.
PII араластыру және талдау: маппингтерді бөлек сақтаңыз, бүркемелеуді қолданыңыз.
Иесі мен SLO жоқ Gold: owner және жаңалық мақсаттарын белгілеңіз.
Басқарылмайтын құны: партия, компрессия, tiered-storage, квоталар.

19) Глоссарий (қысқаша)

DSAR/RTBF - деректер субъектісінің сұрауы/жою құқығы.
Legal Hold - заңды негіздер бойынша жоюды мұздату.
Lineage - шығу тегі мен трансформацияның қадағалануы.
Data Product - SLA-мен басқарылатын өнім бірлігі.
DQ - деректер сапасының ережелері мен өлшемдері.
Lakehouse - data lake және ACID кестелерін біріктіру.

20) Қорытынды

Деректердің өмірлік циклі - жай ғана файлдар қоймасы емес, басқарылатын уағдаластықтар жүйесі. Нақты келісімшарттар мен схемалар, жіктеу және каталог, өлшенетін сапа, құпиялылық және қауіпсіздік, сақтаудың үнемді архитектурасы және мөлдір lineage деректерді өнімге, комплаенс пен талдауды тосын сый мен «жасырын» тәуекелсіз қолдайтын сенімді актив етеді.

Contact

Бізбен байланысыңыз

Кез келген сұрақ немесе қолдау қажет болса, бізге жазыңыз.Біз әрдайым көмектесуге дайынбыз!

Telegram
@Gamble_GC
Интеграцияны бастау

Email — міндетті. Telegram немесе WhatsApp — қосымша.

Сіздің атыңыз міндетті емес
Email міндетті емес
Тақырып міндетті емес
Хабарлама міндетті емес
Telegram міндетті емес
@
Егер Telegram-ды көрсетсеңіз — Email-ге қоса, сол жерге де жауап береміз.
WhatsApp міндетті емес
Пішім: +ел коды және номер (мысалы, +7XXXXXXXXXX).

Батырманы басу арқылы деректерді өңдеуге келісім бересіз.