数据来源和路径
1)什么是Data Lineage
Data Lineage是数据的"生命历史":从出生地(来源)到转换和转移,再到店面,报告和模型。Lynage回答以下问题:- 报告中的数字来自哪里?
- 哪些表格/字段会影响模式更改?
- 为什么KPI昨天晚上9点发生变化?
- 哪些数据进入特定模型和ML版本?
对于iGaming来说,这是至关重要的,因为监管、财务报表(GGR/NET)、防冻剂、KYC/AML、负责任的游戏和产品变化的高速度。
2)线性水平和粒度
1.业务线是将指标和业务术语(来自词汇表)与店面/公式相关联。
2.技术线条(表格)-表/乔布/转换包之间的链接。
3.专栏(field/column-level)-哪个源专栏构成目标专栏,并带有规则。
4.Runtime-linj(操作)-实际运行:时间、卷、代码/方案版本、散列工件。
5.端到端是从提供商/PSP/CRM 到报告/dashboard/模型的端到端路径。
6.Cross-domain/Mesh是合同数据域产品之间的链接。
3)关键价值
信任和审计:可解释报告和模型,快速调查事件。
影响分析:安全的电路/逻辑更改,发布的可预测性。
登陆速度:新的分析师和工程师更快地了解景观。
法规遵从性:PII可追溯性,法律保留,向监管机构报告。
成本优化:识别"死"管道和重复店面。
4)物体和文物
图的实体:source(游戏提供商,PSP,CRM),Topic/Stream,Raw/Staging,Bronze/Silver/Gold,DWH,ML-fichi,BI模型,Dashbord。
链接:转换(SQL/ELT),乔巴(Airflow/DBT/……),模型(版本),合同(Avro/Proto/JSON Schema)。
属性:所有者,域,分类,方桉版本,质量控制,清新,SLO/SLI。
5)线性的真相来源
静态:SQL/configs paring(dbt,ETL)→建立依赖关系。
动态/运行时:在运行时收集元数据(编排器中的操作员,查询日志)。
事件:总线(Kafka/Pulsar)发布/阅读消息时的线性活动,合同验证。
手动(最小值):描述无法自动检索的复杂业务逻辑。
6)线性和数据合同
该合同记录了方案,语义和SLA。
兼容性检查(semver)和幂等性-是强制性的。
线程存储合同/版本链接和验证事实(CI/CD+运行时)。
7)iGaming中的线性: 域示例
游戏事件→ RTP总和,波动,保留,"Game Performance Gold"展示柜。
付款/结论/charjbacks → GGR/NET报告,反欺诈信号。
KYC/AML →状态,检查,Alerta →合并展示和报告。
响应游戏→限制/自我体验→风险评分和干预触发因素。
市场营销/CRM →活动,奖金,重新组合→对LTV/ARPPU的影响。
8)图可视化
建议:- 有两种模式:从字段到字段的"景观图"(宏图)和"直通轨道"(微型)。
- 过滤器:按域、所有者、分类(PII)、环境(prod/stage)、时间。
- 覆盖:新鲜度、体积、DQ错误、电路版本。
- 快速操作:"显示从属","谁消耗此列?","KPI dashboard之路。"
9)影响分析和变更管理
在更改电路/逻辑之前,请启动if: 哪些乔巴/店面/dashbords/模型将受到影响。
自动生成从属工件的所有者。
显示屏的双write/蓝绿色模式: v2并行填充,比较指标,切换。
Backfill花花公子:如何以及如何赶上历史数据,如何检查一致性。
10)线性和数据质量(DQ)
将DQ规则与图节点/字段相关联:有效性、唯一性、一致性、及时性。
违规时,在轨道上显示"红色片段",然后向所有者举起Alertes。
保存DQ事件的历史及其对KPI的影响。
11)用于ML/AI的线性
可追溯性:数据集→功能→培训代码→模型(版本)→地基。
捕获commits、培训参数、框架版本、验证数据。
线性有助于调查漂移,倒退度量并重现结果。
12)线性和隐私/合规性
标记PII/金融领域,国家/地区,法律(GDPR/本地),加工基础。
标记应用掩码/别名/匿名化的节点。
对于DSAR/Right to be forgotten,请破解主体在哪些橱窗/备件中存在。
13)线性度量(SLO/SLI)
Coverage:具有柱形线条的表/字段的百分比。
Freshness SLI:在更新SLA中堆叠的节点比例。
DQ通行率:成功的关键路径检查的比例。
MTTD/MTTR用于数据事件。
Change lead time:平均同意时间和安全发布模式。
死亡资产:无人认领的店面/乔布的比例。
14)工具(类别)
Catalog/Glossary/Lineage:一个元数据图,从SQL/编排器/总线导入。
命令:收集运行时元数据,任务状态,SLA。
计划注册/合同:兼容性检查,版本策略。
DQ/Dobservability:规则、异常、新鲜度、体积。
Sec/Access:PII标签,RBAC/ABAC,审核。
ML Registry:模型,工件和dataset的版本。
15)模板(准备使用)
15.1线性节点护照
名称/域/环境: 所有者/管家:- 分类:Public/Internal/Confidential/Restricted(PII)
- 来源/输入:表/topics+合同版本
- 转型:SQL/job/repo+commit
- 出口/消费者:店面/dashbords/型号
- 可观察性信号:新鲜度、体积、异常
- 事件历史:提切特/后太平间参考
15.2个通讯卡(column-level)
从字段: 计划。table.col(类型,nullable)
在字段中: schema。table.col(类型,nullable)
转换规则: 表达式/函数/字典
质量上下文: 检查、范围、参考
15.3花花公子调查事件
1.确定受影响的KPI/dashboard → 2)将路径向上(上游)追溯到源→
2.检查每个节点上的新鲜/卷/DQ → 4)查找最新的代码/模式更改→
3.比较prod/stage/昨天 → 6)分配固定和背面→ 7)后太平间和未来规则。
16)流程和整合
在变化中:repo 中的每个更改方案/SQL的merge都会触发线性重排和影响分析。
上运行:每个成功/失败的job都将运行时元数据写入图形。
Access-hooks:访问请求显示通往PII和负责所有者的路径。
政府仪式:每周审查关键途径,SLO月度报告。
17)实施路线图
0-30天(MVP)
1.定义关键KPI/dashbords及其端到端路径。
2.连接表线的SQL/jobs分配。
3.启动节点/通信护照和最低新鲜度指标。
4.描述关键路径(KYC,付款)中的PII标签。
60-90天
1.进入顶层店面的专栏级别。
2.集成编排器的运行时元数据(时间,音量,状态)。
3.将DQ规则与图相关联,启用异序。
4.可视化:按域/所有者/PII筛选器,新鲜度覆盖物。
3-6个月
1.事件总线(游戏/支付筹码)上的合同和计划注册。
2.完整的ML线性曲目(dannyye→fichi→model→inferens)。
3.CI中的影响分析→依赖项所有者的自动滴答作响。
4.覆盖范围为≥70%的活动店面;SLO报告。
18)模式和反模式
模式是:- 图形第一:一个元数据图作为更改的"指南针"。
- Contract-aware线性:与电路版本和验证结果的关系。
- Observability overlay: 在图顶部的新鲜/体积/DQ。
- 产品思考:域名所有者发布经过认证的"数据产品"。
- "图片是为了图片",没有自动收集和支持。
- 手动的maind maps代替parsing和runtime true。
- KPI关键路径中没有柱状细节。
- 不带可用性/PII和DSAR/Legal Hold流程的线条。
19)实用支票单
在发布数据更改之前
- 合同更新,兼容性检查通过
- 依存关系影响分析完成
- v2陈列柜并行组装,比较度量ok
- backfill和回滚计划已记录
每周审查
- 新鲜绿色的关键途径
- 没有"孤儿"乔布/店面
- DQ事件已关闭并记录下来
- column-level覆盖范围>目标阈值
结果
线程将混乱的数据流转换为受控的地形图:可以看到来自何处,谁回答,风险以及如何安全更改。对于iGaming来说,它是KPI,实验速度和成熟合规性的信任基础。