GH GambleHub

数据流体系结构

1)任命和原则

目标:为分析、报告、反欺诈、个性化和ML提供正确、及时和兼容的数据。

原则:
  • 数据即产品:明确的所有者、合同、SLO和认证。
  • 方案一:方案是强制性的;规则演变。
  • Privacy-by-Design:PII最小化,别名,访问控制。
  • Observability-by-Default:跟踪、度量、线性、质量配置文件。
  • Cost-aware:分层存储,采样嘈杂事件,压缩。

2)来源和事件的景观

交易:存款/收款,利率/付款,奖金,充电板。
自定义:会话、点击、转换、RG限制、KYC状态。
操作:应用程序逻辑、性能指标、差异。
提供商:PSP/KYC/制裁/游戏工作室(聚合器)。
参考:游戏目录,国家/货币目录,关税/税收。

事件分型(示例):
json
{
"event_time":"2025-10-31T19:20:11Z",
"event_type":"payment. deposit",
"schema_version":"1. 3. 0",
"user":{"id":"U-123","country":"EE","age_band":"18-24"},
"payment":{"amount":200. 00,"currency":"EUR","method":"card","psp_ref":"PSP-222"},
"ctx":{"ip":"198. 51. 100. 10","session_id":"s-2233","trace_id":"f4c2..."}
}

3)参考体系结构(高水平)

1.Ingest层

网关(HTTP/gRPC),CDC连接器(来自OLTP),队列/总线(Kafka/Redpanda),遥测收集器。
验证,正常化,入口处的PII修订版,合同执行。

2.流化层

流乔巴(Flink/Spark Structured Streaming/Beam)具有重复数据消除、水印、静态聚合。
粉丝进入存储和在线服务(fichestor,antifrod)。

3.Batch层

编排(Airflow/Dagster),增量加载,后退和后退过程,SCD类型。

4.存储(Lakehouse)

青铜:原始事件(仅append-only,immutable)。
Silver:清除的保形表,具有质量和重复数据消除功能。
黄金:针对特定桉例的店面/三月(BI/监管机构/ML)。
带有ACID(Delta/Iceberg/Hudi)的表格格式,分为热/热/冷层。

5.Serving和访问

BI/SQL(Trino/Presto/DuckDB),语义层(metrics层),API/GraphQL,用于在线/离线一致性的功能商店。

6.Howernance和安全

目录/链接,DQ规则,政治访问引擎(RBAC/ABAC),掩码/标记,用于报告的WORM存档。

4)合同和计划

数据合同:OpenAPI/AsyncAPI/JSON Schema/Avro。
进化:语义版本;反向兼容的更改-添加不可分割的字段;破解-在迁移期间仅带有"/v2"和双重记录。
寄存器:Schema Registry,域目录(付款,游戏游戏,营销)。

5)集成模式

CDC(更改数据捕获):从OLTP到总线(Debezium),通过域密钥进行分组。
Outbox/Inbox:保证提供域逻辑事件。
Exactly-Once/Effectively-Once: State事务,Idempoty sink'和,重复数据消除密钥。
Late Data&Watermarks:处理滞后事件;带有allowed lateness的窗口。
重新设计:等效派对线,时间旅行,快照修复。

6)Lakehouse模型: 青铜/银色/黄金

Bronze (raw):

时间分期付款(event_date)和市场分期付款(jurisdiction)。
仅添加;存储用于forenzica的原始付费。

Silver (clean):

规范化类型、参考资料、重复数据消除(event_id、event_time)。
FK验证,货币标准化/时间区,丰富。

Gold (serve):

非正规店面(GGR,RG得分,LTV,队列表)。
更新的SLA,BI下的单元和报告。

7)数据质量(数据质量)

规则:电路验证,范围,唯一性,完整性,参考完整性。
剖析:分布,基数,特征的"漂移"。
监视:p50/p95 pipline延迟,drop-rate, error budget。
Degradation policy:自动后退(最后一个快照)、Alerta和T度量测试。

DQ合同(YAML)示例:
yaml table: silver. payments rules:
- name: amount_positive type: range column: amount min: 0. 01
- name: currency_valid type: in_set column: currency set: [EUR,USD,GBP,TRY,BRL]
- name: unique_tx type: unique columns: [transaction_id]
slo:
freshness_minutes: 15 completeness_percent: 99. 5

8)隐私和合规性

PII最小化和掩饰:存储伪ID,分离外观。
区域化:地理位置垃圾箱/目录(EEA/UK/BR),"数据驻留"。
法律操作:DSAR/RTBF(可计算投影和选择性编辑),法律保持,不变的报告档案。
访问逻辑:审核读取"敏感"表格、断面和JIT访问。

9)可观察性和控制

Lynedge:自动跟踪源依赖关系到店面。
Piplines度量标准:throughput, lag, failure-rate, cost/GB, cost/query。
跟踪(OTel):来自应用程序的"trace_id"会通过构建端到端查询路径来滚动到事件→。
Alerts: SLO预算,新鲜/体积/基数异常。

10)访问和安全模型

数据类别:public/internal/confidential/restricted。
策略:row/column-level security;动态掩码(PAN/IBAN/电子邮件)。
密钥管理:KMS/CMK, at-rest/in-transit加密,轮换。
分离责任:分离的模板/分析员/管理员/复仇者角色。

11) Data Mesh和产品方法

Домены: Payments, Gameplay, Marketing, Risk, Compliance.

数据产品:所有者,SLA新鲜度,字段字典,测试,版本,消费指标。
域之间的合同:可转换的,具有反向兼容性的测试消费者(消费者驱动程序)。

12)Fichestor和ML流

功能注册:特征描述,来源,转化,SLO。
在线/离线一致性:一个转换代码,延迟在线实现≤ 200-500毫秒。
漂移监控:PSI/KS,自动变速器和模型回滚,PII控制。
实验日志:元数据,版本,可重复性,模型卡。

13) Finmodel和成本优化

按频繁谓词分派和Z-order/Cluster。
冷存储和未使用表的TTL,VACUUM。
材料化视图仅适用于稳定的查询模式。
重型乔布斯的配额和预算;按命令进行充电。

14)区域和多影子拓扑

多区域活动:主题和表复制,独立管周。
Failover/DR:目标的RPO/RTO,编排器元数据的快照,恢复检查。
多重性:目录/密钥/配额隔离,tenant_id标签。

15)流程和RACI(简述)

R:数据平台(ingest,存储,编排),数据工程(转换)。

A: Head of Data / Chief Data Officer.

C:法规遵从性/法律/DPO,体系结构,SRE。

I: BI/分析,产品,市场营销,财务.

16)用于线程的SLO/SLI

新鲜(freshness): p95 Silver延迟≤ 15分钟,Gold (daily)准备≤ 06:00 lock。时间。
完整性:≥ 99。每个窗口T 5%的事件。
有效性:DQ检查错误<0。占数量的5%。
伺服器的可用性:≥ 99。BI/Feature API为9%。

17)表格和分期付款模板

sql
-- Bronze: Deposit events
CREATE TABLE bronze. payment_deposits (
event_time TIMESTAMP,
event_id STRING,
user_pseudo_id STRING,
amount DECIMAL(18,2),
currency STRING,
psp_ref STRING,
payload VARIANT
)
PARTITION BY DATE(event_time)
CLUSTER BY (currency);

-- Silver: normalized model
CREATE TABLE silver. payments AS
SELECT event_id,
CAST(event_time AS TIMESTAMP) AS ts,
user_pseudo_id,
amount,
currency,
psp_ref
FROM bronze. payment_deposits
QUALIFY ROW_NUMBER() OVER (PARTITION BY event_id ORDER BY ts) = 1;

18)乐团和DevX

Infra-as-Code:piplines存储库,测试,评论,GitOps。
Data Contracts CI: Linters电路,DQ测试直至丢弃。
Backfill框架:带有R/W限制和idempotency的安全逆转录过程。
目录和模板:pipline生成器(cookie-cutter),最佳实践。

19)实施路线图

MVP(4-6周):

1.来自2-3个关键源(OLTP CDC、API网关)的+ingest事件总线。

2.湖畔青铜/银色,带有ACID的格式,目录和基本DQ规则。

3.1-2金色店面(每日GGR和转换漏斗)。

4.lag/completeness度量,基本线索,RBAC和PII掩码。

第二阶段(6至12周):
  • 流式单元(p95 latency ≤ 5分钟),功能商店,RG/AML店面。
  • 语义层度量,SLA报告;成本死板。
  • 区域化(EEA/UK),DSAR/RTBF程序,文物的法律保留。
第三阶段(12周以上):
  • Data Mesh:产品领域,消费者驱动合同。
  • 具有漂移监视功能的ML操作,在线/离线自动协商。
  • 按成本自动模拟电路更改(影响分析)和"what-if"。

20)频繁的错误以及如何避免错误

没有电路的原始薪水:引入计划第一,寄存器和CI验证。
无重复数据消除:Silver中的事件密钥和idempotent-sink。
将PII与分析相混合:分离图案并掩盖字段。
没有所有者的黄金:指定所有者、SLO和消费指标。
没有重复策略:时间旅行,逻辑转换,"双重会计"控制。
非管理成本:分期付款,压制,TTL,价值观察。

21)词汇表(简短)

CDC-捕获来自OLTP的更改。
Outbox-以事务方式发布域事件。
Watermark-评估窗户的流量完整性。
Lakehouse是数据湖+ACID表。
Data Product是具有所有者和SLO的产品数据单元。
Feature Store是ML特征的协调分发。

22)结果

数据流体系结构是一个托管的安排系统:明确的合同,可观察性,安全性和控制成本。遵循所描述的模式(schema-first、bronze/silver/gold、CDC+Outbox、DQ和lineage, privacy by design),该平台可靠地为企业、合规性和ML提供质量数据,可预测的SLO和可理解的拥有成本。

Contact

联系我们

如需任何咨询或支持,请随时联系我们。我们随时准备提供帮助!

Telegram
@Gamble_GC
开始集成

Email — 必填。Telegram 或 WhatsApp — 可选

您的姓名 可选
Email 可选
主题 可选
消息内容 可选
Telegram 可选
@
如果填写 Telegram,我们也会在 Telegram 回复您。
WhatsApp 可选
格式:+国家代码 + 号码(例如:+86XXXXXXXXX)。

点击按钮即表示您同意数据处理。