GH GambleHub

数据丰富

1)目的和业务价值

丰富将"原始"事件转化为有用的事实,增加了上下文和特征:
  • 财务/报告:货币正常化,市场/税率挂钩,GGR/NGR计算。
  • 合规性/AML/RG:风险评分,制裁/RER标签,RG限制,行为特征。
  • 营销/产品:流量来源,细分,任务/任务,个性化。
  • SRE/操作: 地理/ASN流量,客户端/设备类型,fichflags和发行版。

关键结果是提高模型准确性、报告质量和决策速度。


2)丰富来源(示例目录)

参考/目录:游戏,提供商,市场/辖区,货币,税表,假期日历。
KYC/KYB/RG:检查级别,状态,自我体验,限制,年龄组。
AML/制裁/PEP:筛选命中率,列表,风险水平。
网络和设备:IP→geo/ASN,设备/OS/浏览器,设备指纹。
支付提供商(PSP):BIN表,方法,MCC,风险标签。
FX/时间:事件日期的货币汇率,本地时区/DST。
内容和营销:来源/活动/UTM,附属机构,细分市场。
模型和启发式方法:学前得分,embeddings,分类mappings。


3)富集类型

Lookup-joyn:按键(game_id、BIN、ip_range、user_pseudo_id)点匹配。
Dimension attach:附着测量(dim.)到事实。
Derived fields:可计算的列(amount_base、local_time、tax_rate)。
Aggregations/velocity:每个窗口的计数器(N费率/分钟,存款金额/小时)。
Risk/behavioral features:"从最后一个事件开始的时间",共享钱包,夜间活动。
Geo/ASN/设备:国家代码,区域,操作员,设备/浏览器类型。
Semantic映射:提供商/游戏分类,玩家群集。
ML-fici:用于在线/离线建模(Feature Store)的特征。


4)在哪里充实: Batch vs Stream

流(实时):反氟化物,RG触发器,SRE变量-p95 ≤ 2-5 s延迟;在高速缓存(Redis/Scylla),异步请求提供商与时间戳。
Batch (micro-batchi/Dailing): Gold (GGR/RG/AML)店面,对账,报告-稳定性和完整性比潜伏期更重要。
混合动力车:快速在线功能+夜间过度充血(reconciliation/accuracy)。


5)建筑参考

1.青铜是原始事件(仅适用于)。

2.Silver (clean/conform)-正常化、密钥、主要外观和(fx, geo, dim.).

3.Enrichment Layer-扩展特征、窗口聚合、风险标签。
4.功能商店-特征寄存器(在线/离线一致性)。
5.黄金-BI/调节/模型下的店面;不可变的文物。
6.服务-API/GraphQL,报告导出,实时异常。

组件:Kafka/Redpanda,Flink/Spark/Beam,Redis/Scylla(外观),ClickHouse/Pinot(操作阅读),Lakehouse(Delta/Iceberg/Hudi)。


6)合同和计划

Schema-first:"event_time","schema_version",稳定键(user_pseudo_id,game_id,transaction_id)。

富集标记: 'enrichment。version`, `enrichment.sources`, `fx_source`, `geo_source`, `model_version`.

转化:新特征被添加为不可承受的;破解更改-通过"/v2"和双重记录。


7)丰富示例(SQL/伪代码)

7.1 FX正常化和本地时间

sql
SELECT p.transaction_id,
p.amount_orig,
p.currency,
r.rate   AS fx_rate_used,
p.amount_orig r.rate AS amount_base,
p.event_time,
convert_timezone(m.tz, 'UTC', p.event_time) AS local_time,
r.fx_source
FROM bronze.payment_events p
JOIN dim.fx_rates r
ON r.date = DATE(p.event_time) AND r.ccy_from = p.currency AND r.ccy_to = 'EUR'
JOIN dim.markets m ON m.code = p.market;

7.通过IP 2 Geo/ASN(伪代码)

python geo = geo_db.lookup(ip)
asn = asn_db.lookup(ip)
record["geo_country"] = geo.country record["asn"] = asn.number record["enrichment"]["geo_source"] = "mmdb:2025-10-01"

7.3窗口迹象存款速度(流)

sql
SELECT user_pseudo_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS deposits_sum_10m
FROM silver.payments
GROUP BY user_pseudo_id, TUMBLE(event_time, INTERVAL '10' MINUTE);

7.4与RG限制配对

sql
SELECT b., r.daily_deposit_limit, r.self_exclusion
FROM silver.bets b
LEFT JOIN dim.rg_limits r USING (user_pseudo_id);

8)富集质量(DQ)

最低限度规则:
  • FX:"fx_rate_used"不是NULL,"fx_source"来自whitelist,计算为"amount_base ≥ 0"。
  • Geo/ASN:成功的lookups比例≥ 98%(按市场),在手册中为"国家"。
  • RG/AML标签:"valid_from/valid_to"(SCD II)不重叠;历史上没有"漏洞"。
  • 单元/窗口:窗口正确性(无重复计数),completeness ≥ 99。5%.
  • 模型版本:"model_version"存在,特征漂移控制。
YAML规则的示例:
yaml table: enriched.payments rules:
- name: fx_present type: not_null column: fx_rate_used severity: critical
- name: country_known type: in_set column: geo_country set_ref: ref.countries severity: major
- name: rg_scd_valid type: scd_validity columns: [valid_from, valid_to]
severity: major

9)隐私和合规性

PII最小化:通过pseudo-ID丰富,真实ID在单独的轮廓中。
地理定位和驻留:区域路由(EEA/UK/BR),分离加密密钥。
DSAR/RTBF:丰富的投影应支持"隐藏"/修订版;保留例外的法律依据。
法律保留:冻结报告文物/案例的删除。


10)可观察性和线性

Lynedge:从原始事件→ lookup/聚合物 →店面/模型;捕获源版本("fx_source","geo_source","bin_source")。
SLI/SLO: freshness p95 (Silver) ≤ 15 мин;成功的geo-lookups ≥ 98%;填写关键特征的记录比例≥ 99%;latency enrich-stream p95 ≤ 2-5 s。
Dashbords:按来源分列的completeness热图,参考书/模型版本图,"昂贵"加成监视器,特征漂移。


11)成本和性能

缓存/实现:经常出现"和Redis/Scylla;偶尔的snapshot。
紧凑的特征:存储单元(而不是"原始"列表);使用Parquet/柱形格式。
参与:按日期/市场/特南特分列;聚集在经常过滤的字段中。
自适应频率:重型enrich-joba-夜晚;realtime-只有关键。
Chargeback: 按命令/犯规计算成本/查询和成本/GB。


12)模式和反模式

模式是:
  • RG/KYC/提供商的 Dimension Lookup+SCD II。
  • 带有时空和后退的Async Enrichment(标签"未知"+重复)。
  • 具有在线/离线匹配和可重复性测试的特色商店。
  • 富集规则(阈值/分类卡)。
反模式:
  • 在没有缓存的热路径中硬绑定到外部API。
  • 未标记的源版本("fx_source","geo_source")。
  • Silver中"全部"的非正规化(成本/复杂性爆炸)。
  • 将PII引入分析层。

13)流程和RACI

A (Accountable): Head of Data / Chief Data Officer.

C (Consulted): Compliance/Legal/DPO, Finance (FX/налоги), Risk (RG/AML), SRE.

R(响应):数据工程(enrich/stream pipline),域所有者(特征语义),MLOps(功能商店)。
I (Informed): BI/产品/营销/运营。


14)实施路线图

MVP(2-4周):

1.丰富来源目录(fx,geo,markets,RG/KYC)。

2.Silver归一化+基本外观和(fx/geo/dim.).

3.Velocity(存款/利率)和enriched的第一个集合。v1表格。

4.Dashbord completeness/freshness,源版本。

第二阶段(4-8周):
  • 制裁/RER/KIPOV,PSP BIN表,设备指纹连接。
  • 功能商店(特征核心)+在线缓存,Flink的实时丰富。
  • Enrich层,lineage和"dry-run"模拟上的DQ规则。
第三阶段(8至12周):
  • 在线个性化(任务/任务)和RG/AML检测器。
  • 价值管理(配额,实现,Z命令),多区域。
  • 特征和目录文档的自动发生("功能卡")。

15)售前质量检查表

  • 已商定的密钥和方案,源版本已签名。
  • 关于fx/geo/RG/制裁/窗口的 DQ规则;Alerta和SLO。
  • Cashi/taymauts和fallback用于外部外观。
  • Lynedge和价值/性能行列。
  • 用于丰富表的DSAR/RTBF/Legal Hold程序。
  • 特征文档(所有者,公式,SLO,影响)。

16)频繁的错误以及如何避免错误

参考书/模型的未完成版本:始终捕获"_source"和"model_version"。
"追溯"计算fx:在事件发生时使用课程;存储FX源。
PII溷合:令牌化和隔离mappings。
单元中的双重计数:检查窗口和去势。
无缓存同步外部调用:输入async+cache/retrai。
没有可复制性信息:单一的在线/离线转换代码,合规性测试。


17)词汇表(简短)

Lookup/Dimension attach-通过键将参考书附加到事实。
Feature Store是ML的注册表和特征浏览器。
SCD II-以有效性间隔对测量进行历史化。
FX-货币汇率和货币正常化。
ASN是一个独立的网络系统;有利于防冻和地理分析。


18)结果

丰富是将事件转变为知识的学科:一致的密钥和方案,受控的lookup"和聚合,转化源,默认隐私,DQ和可观察性。按照所描述的模式,您将获得可复制,经济且兼容的店面和功能,准备报告,个性化和实时风险检测器。

Contact

联系我们

如需任何咨询或支持,请随时联系我们。我们随时准备提供帮助!

开始集成

Email — 必填。Telegram 或 WhatsApp — 可选

您的姓名 可选
Email 可选
主题 可选
消息内容 可选
Telegram 可选
@
如果填写 Telegram,我们也会在 Telegram 回复您。
WhatsApp 可选
格式:+国家代码 + 号码(例如:+86XXXXXXXXX)。

点击按钮即表示您同意数据处理。