GH GambleHub

數據豐富

1)目的和業務價值

豐富將「原始」事件轉化為有用的事實,增加了上下文和特征:
  • 財務/報告:貨幣正常化,市場/稅率掛鉤,GGR/NGR計算。
  • 合規性/AML/RG:風險評分,制裁/RER標簽,RG限制,行為特征。
  • 營銷/產品:流量來源,細分,任務/任務,個性化。
  • SRE/操作: 地理/ASN流量,客戶端/設備類型,fichflags和發行版。

關鍵結果是提高模型準確性、報告質量和決策速度。


2)豐富來源(示例目錄)

參考/目錄:遊戲,提供商,市場/轄區,貨幣,稅表,假期日歷。
KYC/KYB/RG:檢查級別,狀態,自我體驗,限制,年齡組。
AML/制裁/PEP:篩選命中率,列表,風險水平。
網絡和設備:IP→geo/ASN,設備/OS/瀏覽器,設備指紋。
支付提供商(PSP):BIN表,方法,MCC,風險標簽。
FX/時間:事件日期的貨幣匯率,本地時區/DST。
內容和營銷:來源/活動/UTM,附屬機構,細分市場。
模型和啟發式方法:學前得分,embeddings,分類mappings。


3)富集類型

Lookup-joyn:按鍵(game_id、BIN、ip_range、user_pseudo_id)點匹配。
Dimension attach:附著測量(dim.)到事實。
Derived fields:可計算的列(amount_base、local_time、tax_rate)。
Aggregations/velocity:每個窗口的計數器(N費率/分鐘,存款金額/小時)。
Risk/behavioral features:「從最後一個事件開始的時間」,共享錢包,夜間活動。
Geo/ASN/設備:國家代碼,區域,操作員,設備/瀏覽器類型。
Semantic映射:提供商/遊戲分類,玩家群集。
ML-fici:用於在線/離線建模(Feature Store)的特征。


4)在哪裏充實: Batch vs Stream

流(實時):反氟化物,RG觸發器,SRE變量-p95 ≤ 2-5 s延遲;在高速緩存(Redis/Scylla),異步請求提供商與時間戳。
Batch (micro-batchi/Dailing): Gold (GGR/RG/AML)店面,對賬,報告-穩定性和完整性比潛伏期更重要。
混合動力車:快速在線功能+夜間過度充血(reconciliation/accuracy)。


5)建築參考

1.青銅是原始事件(僅適用於)。

2.Silver (clean/conform)-正常化、密鑰、主要外觀和(fx, geo, dim.).

3.Enrichment Layer-擴展特征、窗口聚合、風險標簽。
4.功能商店-特征寄存器(在線/離線一致性)。
5.黃金-BI/調節/模型下的店面;不可變的文物。
6.服務-API/GraphQL,報告導出,實時異常。

組件:Kafka/Redpanda,Flink/Spark/Beam,Redis/Scylla(外觀),ClickHouse/Pinot(操作閱讀),Lakehouse(Delta/Iceberg/Hudi)。


6)合同和計劃

Schema-first:「event_time」,「schema_version」,穩定鍵(user_pseudo_id,game_id,transaction_id)。

富集標記: 'enrichment。version`, `enrichment.sources`, `fx_source`, `geo_source`, `model_version`.

轉化:新特征被添加為不可承受的;破解更改-通過「/v2」和雙重記錄。


7)豐富示例(SQL/偽代碼)

7.1 FX正常化和本地時間

sql
SELECT p.transaction_id,
p.amount_orig,
p.currency,
r.rate   AS fx_rate_used,
p.amount_orig r.rate AS amount_base,
p.event_time,
convert_timezone(m.tz, 'UTC', p.event_time) AS local_time,
r.fx_source
FROM bronze.payment_events p
JOIN dim.fx_rates r
ON r.date = DATE(p.event_time) AND r.ccy_from = p.currency AND r.ccy_to = 'EUR'
JOIN dim.markets m ON m.code = p.market;

7.通過IP 2 Geo/ASN(偽代碼)

python geo = geo_db.lookup(ip)
asn = asn_db.lookup(ip)
record["geo_country"] = geo.country record["asn"] = asn.number record["enrichment"]["geo_source"] = "mmdb:2025-10-01"

7.3窗口跡象存款速度(流)

sql
SELECT user_pseudo_id,
TUMBLE_START(event_time, INTERVAL '10' MINUTE) AS win_start,
COUNT() AS deposits_10m,
SUM(amount_base) AS deposits_sum_10m
FROM silver.payments
GROUP BY user_pseudo_id, TUMBLE(event_time, INTERVAL '10' MINUTE);

7.4與RG限制配對

sql
SELECT b., r.daily_deposit_limit, r.self_exclusion
FROM silver.bets b
LEFT JOIN dim.rg_limits r USING (user_pseudo_id);

8)富集質量(DQ)

最低限度規則:
  • FX:「fx_rate_used」不是NULL,「fx_source」來自whitelist,計算為「amount_base ≥ 0」。
  • Geo/ASN:成功的lookups比例≥ 98%(按市場),在手冊中為「國家」。
  • RG/AML標簽:「valid_from/valid_to」(SCD II)不重疊;歷史上沒有「漏洞」。
  • 單元/窗口:窗口正確性(無重復計數),completeness ≥ 99。5%.
  • 模型版本:「model_version」存在,特征漂移控制。
YAML規則的示例:
yaml table: enriched.payments rules:
- name: fx_present type: not_null column: fx_rate_used severity: critical
- name: country_known type: in_set column: geo_country set_ref: ref.countries severity: major
- name: rg_scd_valid type: scd_validity columns: [valid_from, valid_to]
severity: major

9)隱私和合規性

PII最小化:通過pseudo-ID豐富,真實ID在單獨的輪廓中。
地理定位和駐留:區域路由(EEA/UK/BR),分離加密密鑰。
DSAR/RTBF:豐富的投影應支持「隱藏「/修訂版;保留例外的法律依據。
法律保留:凍結報告文物/案例的刪除。


10)可觀察性和線性

Lynedge:從原始事件→ lookup/聚合物 →店面/模型;捕獲源版本(「fx_source」,「geo_source」,「bin_source」)。
SLI/SLO: freshness p95 (Silver) ≤ 15 мин;成功的geo-lookups ≥ 98%;填寫關鍵特征的記錄比例≥ 99%;latency enrich-stream p95 ≤ 2-5 s。
Dashbords:按來源分列的completeness熱圖,參考書/模型版本圖,「昂貴」加成監視器,特征漂移。


11)成本和性能

緩存/實現:經常出現"和Redis/Scylla;偶爾的snapshot。
緊湊的特征:存儲單元(而不是「原始」列表);使用Parquet/柱形格式。
參與:按日期/市場/特南特分列;聚集在經常過濾的字段中。
自適應頻率:重型enrich-joba-夜晚;realtime-只有關鍵。
Chargeback: 按命令/犯規計算成本/查詢和成本/GB。


12)模式和反模式

模式是:
  • RG/KYC/提供商的 Dimension Lookup+SCD II。
  • 帶有時空和後退的Async Enrichment(標簽「未知」+重復)。
  • 具有在線/離線匹配和可重復性測試的特色商店。
  • 富集規則(閾值/分類卡)。
反模式:
  • 在沒有緩存的熱路徑中硬綁定到外部API。
  • 未標記的源版本(「fx_source」,「geo_source」)。
  • Silver中「全部」的非正規化(成本/復雜性爆炸)。
  • 將PII引入分析層。

13)流程和RACI

A (Accountable): Head of Data / Chief Data Officer.

C (Consulted): Compliance/Legal/DPO, Finance (FX/налоги), Risk (RG/AML), SRE.

R(響應):數據工程(enrich/stream pipline),域所有者(特征語義),MLOps(功能商店)。
I (Informed): BI/產品/營銷/運營。


14)實施路線圖

MVP(2-4周):

1.豐富來源目錄(fx,geo,markets,RG/KYC)。

2.Silver歸一化+基本外觀和(fx/geo/dim.).

3.Velocity(存款/利率)和enriched的第一個集合。v1表格。

4.Dashbord completeness/freshness,源版本。

第二階段(4-8周):
  • 制裁/RER/KIPOV,PSP BIN表,設備指紋連接。
  • 功能商店(特征核心)+在線緩存,Flink的實時豐富。
  • Enrich層,lineage和「dry-run」模擬上的DQ規則。
第三階段(8至12周):
  • 在線個性化(任務/任務)和RG/AML檢測器。
  • 價值管理(配額,實現,Z命令),多區域。
  • 特征和目錄文檔的自動發生(「功能卡」)。

15)售前質量檢查表

  • 已商定的密鑰和方案,源版本已簽名。
  • 關於fx/geo/RG/制裁/窗口的 DQ規則;Alerta和SLO。
  • Cashi/taymauts和fallback用於外部外觀。
  • Lynedge和價值/性能行列。
  • 用於豐富表的DSAR/RTBF/Legal Hold程序。
  • 特征文檔(所有者,公式,SLO,影響)。

16)頻繁的錯誤以及如何避免錯誤

參考書/模型的未完成版本:始終捕獲「_source」和「model_version」。
「追溯」計算fx:在事件發生時使用課程;存儲FX源。
PII混合:令牌化和隔離mappings。
單元中的雙重計數:檢查窗口和去勢。
無緩存同步外部調用:輸入async+cache/retrai。
沒有可復制性信息:單一的在線/離線轉換代碼,合規性測試。


17)詞匯表(簡短)

Lookup/Dimension attach-通過鍵將參考書附加到事實。
Feature Store是ML的註冊表和特征瀏覽器。
SCD II-以有效性間隔對測量進行歷史化。
FX-貨幣匯率和貨幣正常化。
ASN是一個獨立的網絡系統;有利於防凍和地理分析。


18)結果

豐富是將事件轉變為知識的學科:一致的密鑰和方案,受控的lookup"和聚合,轉化源,默認隱私,DQ和可觀察性。按照所描述的模式,您將獲得可復制,經濟且兼容的店面和功能,準備報告,個性化和實時風險檢測器。

Contact

與我們聯繫

如有任何問題或支援需求,歡迎隨時聯絡我們。我們隨時樂意提供協助!

開始整合

Email 為 必填。Telegram 或 WhatsApp 為 選填

您的姓名 選填
Email 選填
主旨 選填
訊息內容 選填
Telegram 選填
@
若您填寫 Telegram,我們將在 Email 之外,同步於 Telegram 回覆您。
WhatsApp 選填
格式:國碼 + 電話號碼(例如:+886XXXXXXXXX)。

按下此按鈕即表示您同意我們處理您的資料。