数据丰富
1)目的和业务价值
丰富将"原始"事件转化为有用的事实,增加了上下文和特征:- 财务/报告:货币正常化,市场/税率挂钩,GGR/NGR计算。
- 合规性/AML/RG:风险评分,制裁/RER标签,RG限制,行为特征。
- 营销/产品:流量来源,细分,任务/任务,个性化。
- SRE/操作: 地理/ASN流量,客户端/设备类型,fichflags和发行版。
关键结果是提高模型准确性、报告质量和决策速度。
2)丰富来源(示例目录)
参考/目录:游戏,提供商,市场/辖区,货币,税表,假期日历。
KYC/KYB/RG:检查级别,状态,自我体验,限制,年龄组。
AML/制裁/PEP:筛选命中率,列表,风险水平。
网络和设备:IP→geo/ASN,设备/OS/浏览器,设备指纹。
支付提供商(PSP):BIN表,方法,MCC,风险标签。
FX/时间:事件日期的货币汇率,本地时区/DST。
内容和营销:来源/活动/UTM,附属机构,细分市场。
模型和启发式方法:学前得分,embeddings,分类mappings。
3)富集类型
Lookup-joyn:按键(game_id、BIN、ip_range、user_pseudo_id)点匹配。
Dimension attach:附着测量(dim.)到事实。
Derived fields:可计算的列(amount_base、local_time、tax_rate)。
Aggregations/velocity:每个窗口的计数器(N费率/分钟,存款金额/小时)。
Risk/behavioral features:"从最后一个事件开始的时间",共享钱包,夜间活动。
Geo/ASN/设备:国家代码,区域,操作员,设备/浏览器类型。
Semantic映射:提供商/游戏分类,玩家群集。
ML-fici:用于在线/离线建模(Feature Store)的特征。
4)在哪里充实: Batch vs Stream
流(实时):反氟化物,RG触发器,SRE变量-p95 ≤ 2-5 s延迟;在高速缓存(Redis/Scylla),异步请求提供商与时间戳。
Batch (micro-batchi/Dailing): Gold (GGR/RG/AML)店面,对账,报告-稳定性和完整性比潜伏期更重要。
混合动力车:快速在线功能+夜间过度充血(reconciliation/accuracy)。
5)建筑参考
1.青铜是原始事件(仅适用于)。
2.Silver (clean/conform)-正常化、密钥、主要外观和(fx, geo, dim.).
3.Enrichment Layer-扩展特征、窗口聚合、风险标签。
4.功能商店-特征寄存器(在线/离线一致性)。
5.黄金-BI/调节/模型下的店面;不可变的文物。
6.服务-API/GraphQL,报告导出,实时异常。
组件:Kafka/Redpanda,Flink/Spark/Beam,Redis/Scylla(外观),ClickHouse/Pinot(操作阅读),Lakehouse(Delta/Iceberg/Hudi)。
6)合同和计划
Schema-first:"event_time","schema_version",稳定键(user_pseudo_id,game_id,transaction_id)。
富集标记: 'enrichment。version`, `enrichment.sources`, `fx_source`, `geo_source`, `model_version`.
转化:新特征被添加为不可承受的;破解更改-通过"/v2"和双重记录。
7)丰富示例(SQL/伪代码)
7.1 FX正常化和本地时间
sql
SELECT p.transaction_id,
p.amount_orig,
p.currency,
r.rate AS fx_rate_used,
p.amount_orig r.rate AS amount_base,
p.event_time,
convert_timezone(m.tz, 'UTC', p.event_time) AS local_time,
r.fx_source
FROM bronze.payment_events p
JOIN dim.fx_rates r
ON r.date = DATE(p.event_time) AND r.ccy_from = p.currency AND r.ccy_to = 'EUR'
JOIN dim.markets m ON m.code = p.market;
7.通过IP 2 Geo/ASN(伪代码)
python geo = geo_db.lookup(ip)
asn = asn_db.lookup(ip)
record["geo_country"] = geo.country record["asn"] = asn.number record["enrichment"]["geo_source"] = "mmdb:2025-10-01"
7.3窗口迹象存款速度(流)
sql
SELECT user_pseudo_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS deposits_sum_10m
FROM silver.payments
GROUP BY user_pseudo_id, TUMBLE(event_time, INTERVAL '10' MINUTE);
7.4与RG限制配对
sql
SELECT b., r.daily_deposit_limit, r.self_exclusion
FROM silver.bets b
LEFT JOIN dim.rg_limits r USING (user_pseudo_id);
8)富集质量(DQ)
最低限度规则:- FX:"fx_rate_used"不是NULL,"fx_source"来自whitelist,计算为"amount_base ≥ 0"。
- Geo/ASN:成功的lookups比例≥ 98%(按市场),在手册中为"国家"。
- RG/AML标签:"valid_from/valid_to"(SCD II)不重叠;历史上没有"漏洞"。
- 单元/窗口:窗口正确性(无重复计数),completeness ≥ 99。5%.
- 模型版本:"model_version"存在,特征漂移控制。
yaml table: enriched.payments rules:
- name: fx_present type: not_null column: fx_rate_used severity: critical
- name: country_known type: in_set column: geo_country set_ref: ref.countries severity: major
- name: rg_scd_valid type: scd_validity columns: [valid_from, valid_to]
severity: major
9)隐私和合规性
PII最小化:通过pseudo-ID丰富,真实ID在单独的轮廓中。
地理定位和驻留:区域路由(EEA/UK/BR),分离加密密钥。
DSAR/RTBF:丰富的投影应支持"隐藏"/修订版;保留例外的法律依据。
法律保留:冻结报告文物/案例的删除。
10)可观察性和线性
Lynedge:从原始事件→ lookup/聚合物 →店面/模型;捕获源版本("fx_source","geo_source","bin_source")。
SLI/SLO: freshness p95 (Silver) ≤ 15 мин;成功的geo-lookups ≥ 98%;填写关键特征的记录比例≥ 99%;latency enrich-stream p95 ≤ 2-5 s。
Dashbords:按来源分列的completeness热图,参考书/模型版本图,"昂贵"加成监视器,特征漂移。
11)成本和性能
缓存/实现:经常出现"和Redis/Scylla;偶尔的snapshot。
紧凑的特征:存储单元(而不是"原始"列表);使用Parquet/柱形格式。
参与:按日期/市场/特南特分列;聚集在经常过滤的字段中。
自适应频率:重型enrich-joba-夜晚;realtime-只有关键。
Chargeback: 按命令/犯规计算成本/查询和成本/GB。
12)模式和反模式
模式是:- RG/KYC/提供商的 Dimension Lookup+SCD II。
- 带有时空和后退的Async Enrichment(标签"未知"+重复)。
- 具有在线/离线匹配和可重复性测试的特色商店。
- 富集规则(阈值/分类卡)。
- 在没有缓存的热路径中硬绑定到外部API。
- 未标记的源版本("fx_source","geo_source")。
- Silver中"全部"的非正规化(成本/复杂性爆炸)。
- 将PII引入分析层。
13)流程和RACI
A (Accountable): Head of Data / Chief Data Officer.
C (Consulted): Compliance/Legal/DPO, Finance (FX/налоги), Risk (RG/AML), SRE.
R(响应):数据工程(enrich/stream pipline),域所有者(特征语义),MLOps(功能商店)。
I (Informed): BI/产品/营销/运营。
14)实施路线图
MVP(2-4周):1.丰富来源目录(fx,geo,markets,RG/KYC)。
2.Silver归一化+基本外观和(fx/geo/dim.).
3.Velocity(存款/利率)和enriched的第一个集合。v1表格。
4.Dashbord completeness/freshness,源版本。
第二阶段(4-8周):- 制裁/RER/KIPOV,PSP BIN表,设备指纹连接。
- 功能商店(特征核心)+在线缓存,Flink的实时丰富。
- Enrich层,lineage和"dry-run"模拟上的DQ规则。
- 在线个性化(任务/任务)和RG/AML检测器。
- 价值管理(配额,实现,Z命令),多区域。
- 特征和目录文档的自动发生("功能卡")。
15)售前质量检查表
- 已商定的密钥和方案,源版本已签名。
- 关于fx/geo/RG/制裁/窗口的 DQ规则;Alerta和SLO。
- Cashi/taymauts和fallback用于外部外观。
- Lynedge和价值/性能行列。
- 用于丰富表的DSAR/RTBF/Legal Hold程序。
- 特征文档(所有者,公式,SLO,影响)。
16)频繁的错误以及如何避免错误
参考书/模型的未完成版本:始终捕获"_source"和"model_version"。
"追溯"计算fx:在事件发生时使用课程;存储FX源。
PII溷合:令牌化和隔离mappings。
单元中的双重计数:检查窗口和去势。
无缓存同步外部调用:输入async+cache/retrai。
没有可复制性信息:单一的在线/离线转换代码,合规性测试。
17)词汇表(简短)
Lookup/Dimension attach-通过键将参考书附加到事实。
Feature Store是ML的注册表和特征浏览器。
SCD II-以有效性间隔对测量进行历史化。
FX-货币汇率和货币正常化。
ASN是一个独立的网络系统;有利于防冻和地理分析。
18)结果
丰富是将事件转变为知识的学科:一致的密钥和方案,受控的lookup"和聚合,转化源,默认隐私,DQ和可观察性。按照所描述的模式,您将获得可复制,经济且兼容的店面和功能,准备报告,个性化和实时风险检测器。