数据生命周期
1)任命和原则
目标:通过支持分析、操作和监管方桉,实现数据从出现到最终删除的可预测、可支持性和经济高效的移动。
基本原则:- 数据作为产品:每组都有所有者、合同、SLO、文档。
- 方案一:方案是强制性的;变化-通过转换。
- Privacy-by-Design:PII最小化,别名,区域存储。
- Observability-by-Default:度量,访问编写,行。
- Cost-aware:存储层、TTL、采样、压缩。
2)生命周期阶段
2.1创建和收集(Create/Collect)
资料来源:产品(web/mobile),后端,付款,KYC/AML提供商,游戏/工作室,市场营销,操作日志。
ID: 'event_id','user。pseudo_id`, `session_id`, `trace_id`.
合同:JSON/Avro电路,AsyncAPI/OpenAPI。
入口质量:电路验证、必填字段、尺寸限制、防重复。
隐私:敏感字段令牌化,地理路由(EEA/UK/BR)。
2.2接收和主存储(Ingest&Raw)
运输:HTTP/gRPC → Edge →总线(Kafka/Redpanda)。
Raw层(Bronze):只有append-only、不变的薪水(forenzika) 、时间/市场/tenantu分期付款。
策略:"(event_id,源代码)","bit"事件的DLQ,法律保留标签。
2.3处理和清洁(Refine)
正常化(Silver):打字、重复数据消除、参考资料、FX/时间区、丰富。
质量(DQ):完整性/唯一性/范围/参考完整性。
重新设计:等速输送机,时间旅行,可控的后退。
2.4消费和伺服器(Serve/Use)
黄金店面:BI/报告(GGR,RG,AML),产品和风险模型,实时店面。
访问:SQL/Trino,语义度量层,API/GraphQL,功能商店。
SLA是新鲜的:例如,黄金每日店面准备就绪,直到当地时间06:00。
2.5分享和分发(分享/出版)
内部消费者:分析,产品,风险,合规性,市场营销,财务。
外部卸载:监管机构,合作伙伴/提供商;不可更改的软件包(PDF/CSV/JSON+hash)。
受控通道:签名工件,下载/出口审核。
2.6归档和存储(归档/归档)
存储策略:按数据类型和司法管辖区(例如,监管-5-7年)。
存储层:hot/warm/cold, WORM/Object Lock,用于不可变性。
归档索引:目录,版本/市场标签,快速搜索元数据。
2.7删除和结局(Dispose)
常规删除:TTL/重组;安全清理,更新索引。
法律操作:DSAR/RTBF(遗忘权),合法存储义务的例外,法律保留(冻结删除)。
验证:删除报告、审核日志、交叉副本控制。
3)分类和目录
敏感性类别:public/internal/confidential/restricted。
Домены: Payments, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.
数据目录:描述,所有者,SLA新鲜度,模式,线性,访问级别。
Теги: `jurisdiction`, `tenant`, `pii_class`, `retention_class`, `legal_hold`.
4)Lakehouse模型和计划
Bronze/Silver/Gold:明确的转换和责任规则。
格式:Parquet+带有ACID的表格格式(Delta/Iceberg/Hudi)。
模式演变:语义版本,长音兼容性,双写迁移以进行突破性更改。
注册:计划注册,CI认证合同,消费者驾驶测试。
5)数据质量(DQ)
质量指标:- 完整性(完整性):实际收到的事件/行的比例。
- Validity:通过电路验证的记录的比例。
- Uniqueness:重复控制。
- 一致性:与参考书和联系相一致。
- 新生:进入/实现延迟。
- DQ规则为代码(YAML/SQL测试),dashbords,SLO异构体。
- 降解时自动倒退(最后正确切片)。
6)隐私和合规性
PII的最小化:存储伪ID,将映射带到隔离的电路中。
掩蔽和RLS/CLS:在列/行级别;动态策略。
区域化:按市场划分的数据驻留;分开的目录/加密密钥。
DSAR/RTBF:可控投影,选择性编辑,发行审核。
法律保留:冻结标签、不可更改的存档、访问协议。
7)访问和安全性
身份验证/授权:SSO,RBAC/ABAC,司法管辖区和角色属性。
加密:transit中TLS;通过KMS/CMK进行休息;按键旋转。
访问日志:谁/什么/何时/何地;大规模出口/扫描的Alertes。
职责分工:杂志/分析/管理人员/审查员的不同角色。
8)线性(线性)和可观察性
技术线程:从→转换源→店面→报告。
操作线:与发行版,fichflags,模型,AML/RG规则的关联。
平台指标:throughput, lag, failure-rate, cost/query, cost/GB。
Tracing:将"trace_id" 从应用程序传输到店面/alert。
9)时间模型和逆转录过程
Event-time vs Processing-time: приоритет event-time, watermarks/allowed lateness.
Backfill and reprocessing:等效管道,时间旅行,"双重计费"控制。
保存状态:TTL,狙击,灾难恢复。
10)经济学和成本控制
分期交易(日期/市场/tenant),聚类/Z-ordering。
采样用于高频分析(不用于交易/合成)。
多层存储(hot/warm/cold),自动TTL。
Budget/chargeback按命令,重度查询限制和后退。
11)流程和RACI
R(响应):数据平台(ingest/存储/编排),数据工程(转换),域所有者(Contracts/DQ/SLO)。
A (Accountable): Head of Data/Chief Data Officer.
C(咨询):法规遵从性/法律/DPO,体系结构,SRE,安全性。
I (Informed): BI/产品/营销/财务/运营。
12)SLO/SLI(大致目标)
13)Dashbords
按域/市场划分的新鲜热图。
按线程完成。
存储和查询成本(按图层和命令)。
关键报告(监管、GGR、RG/AML)的线性映射。
DSAR/RTBF队列,法律保留状态。
14)存储策略模板(示例)
实际时间由法律/DPO和当地法律确定。
15)文件和标准
数据产品页面:所有者,目的,SLA,方桉,DQ规则,联系人。
更改日志:模式/逻辑版本,影响(影响分析),迁移。
Runbooks: reprocessing, backfill,紧急情况,带状按钮。
16)实施路线图
MVP(4-6周):1.数据目录和分类(顶级域),基本方案和寄存器。
2.湖畔青铜/银色,具有验证和重复数据消除功能。
3.1-2金色店面(例如GGR和转换)。
4.最低DQ规则和dashboard Freshness/Completeness。
5.保留策略和RBAC访问。
第二阶段(6至12周):- Linedge,语义度量层,DSAR/RTBF过程。
- 区域化(EEA/UK),监管文物的WORM,法律保留。
- 价值优化,SLO异同,预算报告。
- Data Mesh(域产品),消费者驱动合同和测试。
- 图形/逻辑更改时的自动影响仿真,中继。
- 单一合规性面板(调节,访问,DQ,线路)。
17)售前支票清单
- 计划获得批准,注册合同,兼容性测试。
- DQ规则处于活动状态,Alerts配置,SLO设置。
- RBAC/ABAC:角色验证,访问日志包括在内。
- 保留/删除/归档策略已由Legal/DPO确认。
- DSAR/RTBF/Legal Hold程序已记录和测试。
- Lynedge/度量/成本显示在行车记录板中。
- backfill/reprocessing/DR的Runbooks已准备就绪。
18)频繁的错误以及如何避免错误
没有统一的分类和目录:输入必备的Data Product卡。
无电路原始数据:schema-first+CI验证。
缺乏可删除性:从一开始就设计TTL和RTBF流程。
PII与分析师的溷合:分别存储mappings,应用蒙版。
没有业主和SLO的黄金:指定业主和新鲜度目标。
非管理成本:批次、压缩、分层存储、配额。
19)词汇表(简短)
DSAR/RTBF-数据主体请求/删除权限。
法律保护-出于法律理由冻结处置。
线性-起源和转换的可追溯性。
Data Product是具有SLA的托管产品数据单元。
DQ-数据质量的规则和指标。
Lakehouse-数据湖和ACID表的合并。
20)结果
数据生命周期是一个托管的安排系统,而不仅仅是一个文件仓库。清晰的合同和方桉、分类和目录、可衡量的质量、隐私和安全性、经济高效的存储体系结构和透明的线程使数据成为支持产品、合规性和分析而没有意外和"隐藏"风险的可靠资产。