數據生命周期
1)任命和原則
目標:通過支持分析、操作和監管方案,實現數據從出現到最終刪除的可預測、可支持性和經濟高效的移動。
基本原則:- 數據作為產品:每組都有所有者、合同、SLO、文檔。
- 方案一:方案是強制性的;變化-通過轉換。
- Privacy-by-Design:PII最小化,別名,區域存儲。
- Observability-by-Default:度量,訪問編寫,行。
- Cost-aware:存儲層、TTL、采樣、壓縮。
2)生命周期階段
2.1創建和收集(Create/Collect)
資料來源:產品(web/mobile),後端,付款,KYC/AML提供商,遊戲/工作室,市場營銷,操作日誌。
ID: 'event_id','user。pseudo_id`, `session_id`, `trace_id`.
合同:JSON/Avro電路,AsyncAPI/OpenAPI。
入口質量:電路驗證、必填字段、尺寸限制、防重復。
隱私:敏感字段令牌化,地理路由(EEA/UK/BR)。
2.2接收和主存儲(Ingest&Raw)
運輸:HTTP/gRPC → Edge →總線(Kafka/Redpanda)。
Raw層(Bronze):只有append-only、不變的薪水(forenzika) 、時間/市場/tenantu分期付款。
策略:「(event_id,源代碼)」,「bit」事件的DLQ,法律保留標簽。
2.3處理和清潔(Refine)
正常化(Silver):打字、重復數據消除、參考資料、FX/時間區、豐富。
質量(DQ):完整性/唯一性/範圍/參考完整性。
重新設計:等速輸送機,時間旅行,可控的後退。
2.4消費和伺服器(Serve/Use)
黃金店面:BI/報告(GGR,RG,AML),產品和風險模型,實時店面。
訪問:SQL/Trino,語義度量層,API/GraphQL,功能商店。
SLA是新鮮的:例如,黃金每日店面準備就緒,直到當地時間06:00。
2.5分享和分發(分享/出版)
內部消費者:分析,產品,風險,合規性,市場營銷,財務。
外部卸載:監管機構,合作夥伴/提供商;不可更改的軟件包(PDF/CSV/JSON+hash)。
受控通道:簽名工件,下載/出口審核。
2.6歸檔和存儲(歸檔/歸檔)
存儲策略:按數據類型和司法管轄區(例如,監管-5-7年)。
存儲層:hot/warm/cold, WORM/Object Lock,用於不可變性。
歸檔索引:目錄,版本/市場標簽,快速搜索元數據。
2.7刪除和結局(Dispose)
常規刪除:TTL/重組;安全清理,更新索引。
法律操作:DSAR/RTBF(遺忘權),合法存儲義務的例外,法律保留(凍結刪除)。
驗證:刪除報告、審核日誌、交叉副本控制。
3)分類和目錄
敏感性類別:public/internal/confidential/restricted。
Домены: Payments, Gameplay, Compliance/AML, RG, Marketing, Ops, Finance.
數據目錄:描述,所有者,SLA新鮮度,模式,線性,訪問級別。
Теги: `jurisdiction`, `tenant`, `pii_class`, `retention_class`, `legal_hold`.
4)Lakehouse模型和計劃
Bronze/Silver/Gold:明確的轉換和責任規則。
格式:Parquet+帶有ACID的表格格式(Delta/Iceberg/Hudi)。
模式演變:語義版本,長音兼容性,雙寫遷移以進行突破性更改。
註冊:計劃註冊,CI認證合同,消費者駕駛測試。
5)數據質量(DQ)
質量指標:- 完整性(完整性):實際收到的事件/行的比例。
- Validity:通過電路驗證的記錄的比例。
- Uniqueness:重復控制。
- 一致性:與參考書和聯系相一致。
- 新生:進入/實現延遲。
- DQ規則為代碼(YAML/SQL測試),dashbords,SLO異構體。
- 降解時自動倒退(最後正確切片)。
6)隱私和合規性
PII的最小化:存儲偽ID,將映射帶到隔離的電路中。
掩蔽和RLS/CLS:在列/行級別;動態策略。
區域化:按市場劃分的數據駐留;分開的目錄/加密密鑰。
DSAR/RTBF:可控投影,選擇性編輯,發行審核。
法律保留:凍結標簽、不可更改的存檔、訪問協議。
7)訪問和安全性
身份驗證/授權:SSO,RBAC/ABAC,司法管轄區和角色屬性。
加密:transit中TLS;通過KMS/CMK進行休息;按鍵旋轉。
訪問日誌:誰/什麼/何時/何地;大規模出口/掃描的Alertes。
職責分工:雜誌/分析/管理人員/審查員的不同角色。
8)線性(線性)和可觀察性
技術線程:從→轉換源→店面→報告。
操作線:與發行版,fichflags,模型,AML/RG規則的關聯。
平臺指標:throughput, lag, failure-rate, cost/query, cost/GB。
Tracing:將「trace_id」 從應用程序傳輸到店面/alert。
9)時間模型和逆轉錄過程
Event-time vs Processing-time: приоритет event-time, watermarks/allowed lateness.
Backfill and reprocessing:等效管道,時間旅行,「雙重計費」控制。
保存狀態:TTL,狙擊,災難恢復。
10)經濟學和成本控制
分期交易(日期/市場/tenant),聚類/Z-ordering。
采樣用於高頻分析(不用於交易/合成)。
多層存儲(hot/warm/cold),自動TTL。
Budget/chargeback按命令,重度查詢限制和後退。
11)流程和RACI
R(響應):數據平臺(ingest/存儲/編排),數據工程(轉換),域所有者(Contracts/DQ/SLO)。
A (Accountable): Head of Data/Chief Data Officer.
C(咨詢):法規遵從性/法律/DPO,體系結構,SRE,安全性。
I (Informed): BI/產品/營銷/財務/運營。
12)SLO/SLI(大致目標)
13)Dashbords
按域/市場劃分的新鮮熱圖。
按線程完成。
存儲和查詢成本(按圖層和命令)。
關鍵報告(監管、GGR、RG/AML)的線性映射。
DSAR/RTBF隊列,法律保留狀態。
14)存儲策略模板(示例)
實際時間由法律/DPO和當地法律確定。
15)文件和標準
數據產品頁面:所有者,目的,SLA,方案,DQ規則,聯系人。
更改日誌:模式/邏輯版本,影響(影響分析),遷移。
Runbooks: reprocessing, backfill,緊急情況,帶狀按鈕。
16)實施路線圖
MVP(4-6周):1.數據目錄和分類(頂級域),基本方案和寄存器。
2.湖畔青銅/銀色,具有驗證和重復數據消除功能。
3.1-2金色店面(例如GGR和轉換)。
4.最低DQ規則和dashboard Freshness/Completeness。
5.保留策略和RBAC訪問。
第二階段(6至12周):- Linedge,語義度量層,DSAR/RTBF過程。
- 區域化(EEA/UK),監管文物的WORM,法律保留。
- 價值優化,SLO異同,預算報告。
- Data Mesh(域產品),消費者驅動合同和測試。
- 圖形/邏輯更改時的自動影響仿真,中繼。
- 單一合規性面板(調節,訪問,DQ,線路)。
17)售前支票清單
- 計劃獲得批準,註冊合同,兼容性測試。
- DQ規則處於活動狀態,Alerts配置,SLO設置。
- RBAC/ABAC:角色驗證,訪問日誌包括在內。
- 保留/刪除/歸檔策略已由Legal/DPO確認。
- DSAR/RTBF/Legal Hold程序已記錄和測試。
- Lynedge/度量/成本顯示在行車記錄板中。
- backfill/reprocessing/DR的Runbooks已準備就緒。
18)頻繁的錯誤以及如何避免錯誤
沒有統一的分類和目錄:輸入必備的Data Product卡。
無電路原始數據:schema-first+CI驗證。
缺乏可刪除性:從一開始就設計TTL和RTBF流程。
PII與分析師的混合:分別存儲mappings,應用蒙版。
沒有業主和SLO的黃金:指定業主和新鮮度目標。
非管理成本:批次、壓縮、分層存儲、配額。
19)詞匯表(簡短)
DSAR/RTBF-數據主體請求/刪除權限。
法律保護-出於法律理由凍結處置。
線性-起源和轉換的可追溯性。
Data Product是具有SLA的托管產品數據單元。
DQ-數據質量的規則和指標。
Lakehouse-數據湖和ACID表的合並。
20)結果
數據生命周期是一個托管的安排系統,而不僅僅是一個文件倉庫。清晰的合同和方案、分類和目錄、可衡量的質量、隱私和安全性、經濟高效的存儲體系結構和透明的線程使數據成為支持產品、合規性和分析而沒有意外和「隱藏」風險的可靠資產。