數據流體系結構
1)任命和原則
目標:為分析、報告、反欺詐、個性化和ML提供正確、及時和兼容的數據。
原則:- 數據即產品:明確的所有者、合同、SLO和認證。
- 方案一:方案是強制性的;規則演變。
- Privacy-by-Design:PII最小化,別名,訪問控制。
- Observability-by-Default:跟蹤、度量、線性、質量配置文件。
- Cost-aware:分層存儲,采樣嘈雜事件,壓縮。
2)來源和事件的景觀
交易:存款/收款,利率/付款,獎金,充電板。
自定義:會話、點擊、轉換、RG限制、KYC狀態。
操作:應用程序邏輯、性能指標、差異。
提供商:PSP/KYC/制裁/遊戲工作室(聚合器)。
參考:遊戲目錄,國家/貨幣目錄,關稅/稅收。
json
{
"event_time":"2025-10-31T19:20:11Z",
"event_type":"payment. deposit",
"schema_version":"1. 3. 0",
"user":{"id":"U-123","country":"EE","age_band":"18-24"},
"payment":{"amount":200. 00,"currency":"EUR","method":"card","psp_ref":"PSP-222"},
"ctx":{"ip":"198. 51. 100. 10","session_id":"s-2233","trace_id":"f4c2..."}
}
3)參考體系結構(高水平)
1.Ingest層
網關(HTTP/gRPC),CDC連接器(來自OLTP),隊列/總線(Kafka/Redpanda),遙測收集器。
驗證,正常化,入口處的PII修訂版,合同執行。
2.流化層
流喬巴(Flink/Spark Structured Streaming/Beam)具有重復數據消除、水印、靜態聚合。
粉絲進入存儲和在線服務(fichestor,antifrod)。
3.Batch層
編排(Airflow/Dagster),增量加載,後退和後退過程,SCD類型。
4.存儲(Lakehouse)
青銅:原始事件(僅append-only,immutable)。
Silver:清除的保形表,具有質量和重復數據消除功能。
黃金:針對特定案例的店面/三月(BI/監管機構/ML)。
帶有ACID(Delta/Iceberg/Hudi)的表格格式,分為熱/熱/冷層。
5.Serving和訪問
BI/SQL(Trino/Presto/DuckDB),語義層(metrics層),API/GraphQL,用於在線/離線一致性的功能商店。
6.Howernance和安全
目錄/鏈接,DQ規則,政治訪問引擎(RBAC/ABAC),掩碼/標記,用於報告的WORM存檔。
4)合同和計劃
數據合同:OpenAPI/AsyncAPI/JSON Schema/Avro。
進化:語義版本;反向兼容的更改-添加不可分割的字段;破解-在遷移期間僅帶有「/v2」和雙重記錄。
寄存器:Schema Registry,域目錄(付款,遊戲遊戲,營銷)。
5)集成模式
CDC(更改數據捕獲):從OLTP到總線(Debezium),通過域密鑰進行分組。
Outbox/Inbox:保證提供域邏輯事件。
Exactly-Once/Effectively-Once: State事務,Idempoty sink'和,重復數據消除密鑰。
Late Data&Watermarks:處理滯後事件;帶有allowed lateness的窗口。
重新設計:等效派對線,時間旅行,快照修復。
6)Lakehouse模型: 青銅/銀色/黃金
Bronze (raw):
時間分期付款(event_date)和市場分期付款(jurisdiction)。
僅添加;存儲用於forenzica的原始付費。
Silver (clean):
規範化類型、參考資料、重復數據消除(event_id、event_time)。
FK驗證,貨幣標準化/時間區,豐富。
Gold (serve):
非正規店面(GGR,RG得分,LTV,隊列表)。
更新的SLA,BI下的單元和報告。
7)數據質量(數據質量)
規則:電路驗證,範圍,唯一性,完整性,參考完整性。
剖析:分布,基數,特征的「漂移」。
監視:p50/p95 pipline延遲,drop-rate, error budget。
Degradation policy:自動後退(最後一個快照)、Alerta和T度量測試。
yaml table: silver. payments rules:
- name: amount_positive type: range column: amount min: 0. 01
- name: currency_valid type: in_set column: currency set: [EUR,USD,GBP,TRY,BRL]
- name: unique_tx type: unique columns: [transaction_id]
slo:
freshness_minutes: 15 completeness_percent: 99. 5
8)隱私和合規性
PII最小化和掩飾:存儲偽ID,分離外觀。
區域化:地理位置垃圾箱/目錄(EEA/UK/BR),「數據駐留」。
法律操作:DSAR/RTBF(可計算投影和選擇性編輯),法律保持,不變的報告檔案。
訪問邏輯:審核讀取「敏感」表格、斷面和JIT訪問。
9)可觀察性和控制
Lynedge:自動跟蹤源依賴關系到店面。
Piplines度量標準:throughput, lag, failure-rate, cost/GB, cost/query。
跟蹤(OTel):來自應用程序的「trace_id」會通過構建端到端查詢路徑來滾動到事件→。
Alerts: SLO預算,新鮮/體積/基數異常。
10)訪問和安全模型
數據類別:public/internal/confidential/restricted。
策略:row/column-level security;動態掩碼(PAN/IBAN/電子郵件)。
密鑰管理:KMS/CMK, at-rest/in-transit加密,輪換。
分離責任:分離的模板/分析員/管理員/復仇者角色。
11) Data Mesh和產品方法
Домены: Payments, Gameplay, Marketing, Risk, Compliance.
數據產品:所有者,SLA新鮮度,字段字典,測試,版本,消費指標。
域之間的合同:可轉換的,具有反向兼容性的測試消費者(消費者驅動程序)。
12)Fichestor和ML流
功能註冊:特征描述,來源,轉化,SLO。
在線/離線一致性:一個轉換代碼,延遲在線實現≤ 200-500毫秒。
漂移監控:PSI/KS,自動變速器和模型回滾,PII控制。
實驗日誌:元數據,版本,可重復性,模型卡。
13) Finmodel和成本優化
按頻繁謂詞分派和Z-order/Cluster。
冷存儲和未使用表的TTL,VACUUM。
材料化視圖僅適用於穩定的查詢模式。
重型喬布斯的配額和預算;按命令進行充電。
14)區域和多影子拓撲
多區域活動:主題和表復制,獨立管周。
Failover/DR:目標的RPO/RTO,編排器元數據的快照,恢復檢查。
多重性:目錄/密鑰/配額隔離,tenant_id標簽。
15)流程和RACI(簡述)
R:數據平臺(ingest,存儲,編排),數據工程(轉換)。
A: Head of Data / Chief Data Officer.
C:法規遵從性/法律/DPO,體系結構,SRE。
I: BI/分析,產品,市場營銷,財務.
16)用於線程的SLO/SLI
新鮮(freshness): p95 Silver延遲≤ 15分鐘,Gold (daily)準備≤ 06:00 lock。時間。
完整性:≥ 99。每個窗口T 5%的事件。
有效性:DQ檢查錯誤<0。占數量的5%。
伺服器的可用性:≥ 99。BI/Feature API為9%。
17)表格和分期付款模板
sql
-- Bronze: Deposit events
CREATE TABLE bronze. payment_deposits (
event_time TIMESTAMP,
event_id STRING,
user_pseudo_id STRING,
amount DECIMAL(18,2),
currency STRING,
psp_ref STRING,
payload VARIANT
)
PARTITION BY DATE(event_time)
CLUSTER BY (currency);
-- Silver: normalized model
CREATE TABLE silver. payments AS
SELECT event_id,
CAST(event_time AS TIMESTAMP) AS ts,
user_pseudo_id,
amount,
currency,
psp_ref
FROM bronze. payment_deposits
QUALIFY ROW_NUMBER() OVER (PARTITION BY event_id ORDER BY ts) = 1;
18)樂團和DevX
Infra-as-Code:piplines存儲庫,測試,評論,GitOps。
Data Contracts CI: Linters電路,DQ測試直至丟棄。
Backfill框架:帶有R/W限制和idempotency的安全逆轉錄過程。
目錄和模板:pipline生成器(cookie-cutter),最佳實踐。
19)實施路線圖
MVP(4-6周):1.來自2-3個關鍵源(OLTP CDC、API網關)的+ingest事件總線。
2.湖畔青銅/銀色,帶有ACID的格式,目錄和基本DQ規則。
3.1-2金色店面(每日GGR和轉換漏鬥)。
4.lag/completeness度量,基本線索,RBAC和PII掩碼。
第二階段(6至12周):- 流式單元(p95 latency ≤ 5分鐘),功能商店,RG/AML店面。
- 語義層度量,SLA報告;成本死板。
- 區域化(EEA/UK),DSAR/RTBF程序,文物的法律保留。
- Data Mesh:產品領域,消費者驅動合同。
- 具有漂移監視功能的ML操作,在線/離線自動協商。
- 按成本自動模擬電路更改(影響分析)和「what-if」。
20)頻繁的錯誤以及如何避免錯誤
沒有電路的原始薪水:引入計劃第一,寄存器和CI驗證。
無重復數據消除:Silver中的事件密鑰和idempotent-sink。
將PII與分析相混合:分離圖案並掩蓋字段。
沒有所有者的黃金:指定所有者、SLO和消費指標。
沒有重復策略:時間旅行,邏輯轉換,「雙重會計」控制。
非管理成本:分期付款,壓制,TTL,價值觀察。
21)詞匯表(簡短)
CDC-捕獲來自OLTP的更改。
Outbox-以事務方式發布域事件。
Watermark-評估窗戶的流量完整性。
Lakehouse是數據湖+ACID表。
Data Product是具有所有者和SLO的產品數據單元。
Feature Store是ML特征的協調分發。
22)結果
數據流體系結構是一個托管的安排系統:明確的合同,可觀察性,安全性和控制成本。遵循所描述的模式(schema-first、bronze/silver/gold、CDC+Outbox、DQ和lineage, privacy by design),該平臺可靠地為企業、合規性和ML提供質量數據,可預測的SLO和可理解的擁有成本。