遙測流
1)目的和上下文
遙測流提供了有關平臺運行的觀測數據的連續湧入:發生了什麼,為什麼以及花費多少。在iGaming中,這是早期發現存款/賭註降解,外部提供商(PSP/KYC/遊戲工作室)的可見性以及可證明的SLO/合規性的關鍵。
2)遙測源圖
度量(TSDB):RED/USE,商業SLI(授權成功,利率成功)。
Traces (OTel):前端查詢鏈→ API →經紀人→ DB/PSP。
Logs(結構化):事件、操作審核、錯誤。
RUM:TTFB/LCP,JS錯誤,地理/設備。
合成:來自不同GEO的外部試用交易(登錄/存款/」沙灘」利率)。
低級遙測:eBPF/CPU/IO/alloc,網絡p95/p99。
外部狀態:PSP/KYC/CDN/WAF webhooks/池。
3)標準和計劃
OpenTelemetry作為lingua franca:統一屬性語義(服務)。name, deployment.environment, enduser.id-偽裝,trace/SpanID,PSP碼)。
方案約定:轉換,Logs/Trace的方案,僅通過二進制標誌和寬限期的「突破性變化」。
Correlation-ID:單個「correlation_id」用於在度量值中通過所有層+exemplars進行支付/投註。
4)無花果輸送機(高水平)
1.生產者:SDK/代理商/收集器(節點上的OTel Collector)。
2.邊緣緩沖:具有限制的本地隊列(內存/磁盤)。
3.Transport: gRPC/HTTP OTLP →帶有idempotency密鑰的消息代理(Kafka/Pulsar)。
4.處理器:正常化,富集(GEO/tenant/通道),PII過濾器,精細采樣。
5.Fan-out:在TSDB(度量)中,在軌道存儲中,在日誌系統中,在lake/DWH中,在alerting/規則中。
6.消費者:dashbords,SLO-alerta(burn-rate),調查,狀態頁面,自動門發布。
5) QoS和線程類
A類(實時,P1): SLI/SLO,合成劑,關鍵提供商(PSP/KYC)。交付的SLA: <5-10 c, ≥99。9%.
B類(運營):RCA,SLA的預告片/標誌:<1-2分鐘。
C類(分析):湖泊/DWH的單位和蹦床,SLA:每小時。
類路由→優先級、不同的轉義、單獨的隊列/拓撲。
6)采樣,聚合,重組
度量:歷史序列(1s→10s→1m)的下遊,胡椒聚合,exemplars。
Traces:基於尾巴的采樣(提高異常、PSP錯誤、p99-「爆發」的比例)。
Logs:按輪廓、壓縮、噪音丟棄(健康品格、銷售DEBUG-禁止)。
重建:「熱」(7-14天的部件),「冷」(單元/存檔)。每類數據策略和成本。
7)隱私和合規性
PII衛生:身份偽裝/令牌化;在遙測中禁止CUS/卡令牌文檔。
地理位置化:跨轄區的存儲;導出-僅通過批準的工作流(加密、TTL、審核)。
訪問控制:遙測存儲的RBAC/ABAC,上載的SoD。
8)線程可靠性
相似性:事件的鑰匙,處理器中的去勢。
Backpressure:按特南特/服務噴射限制;過載時低優先級字段的drop策略。
Replays:存儲在≥72 h經紀人中進行重新處理。
Dead-letter:將錯誤(電路、大小、PII違規)路由到帶有警報的安全的DLQ。
轉化:電路變化(v1+v2)和消費者遷移時的「雙線程」。
9) Multi-tenant和隔離
每個事件中的「tenant_id/brand/region」標簽;常設配額和預算。
通過拓撲隔離A/B流;showback/chargeback通過噴射和存儲。
導出時偽裝/聚合到tenant邊界。
10)線程目錄(示例字段)
ID: 'telemetry。payments.auth.success.rate.eu`
班級: A(實時)
Схема: `{timestamp, tenant, region, psp, bank_bin_group, success_rate, window}`
資料來源: OTel Collector+PSP-router metrics
消費者: SLO-Alerta, Exec-dashbord, Status Page
重組: 熱30天,聚合12個月
所有者: Payments SRE,dpo-owner(隱私)
流SLO: 延遲<10 c p95,損失<0。1%/天
11)與Alerting和發行版集成
SLO-alerta按燃燒率(快速/慢速窗口)進行存款/投註。
Release-gates:SLI的金絲雀分析;退化時自動停止/滾回。
狀態頁面:事件卡+SLI分組更新。
12)一組關鍵的dashbords
高管:藥房,燒毀率,授權/投註成功(通過GEO/PSP),提供商狀態,$/RPS遙測。
SRE/平臺:RED/USE按服務,lag隊列,outlier檢測,eBPF配置文件。
Payments/Risk:按銀行/PSP,軟/硬標記,KYC SLA,早期充電信號轉換。
Cost-obs:按來源排列的噴射量,按基數排列的頂級標簽,按線程排列的成本。
13)可觀察性財務(FinOps)
KPI價值:$/GB ingest,$/trace,$/SLI-dashbord;關於「重」指標和標簽的報告。
優化:聚合和降級,動態采樣,清理聊天日誌,存儲類的重要性。
政策:高紅衣主教配額,排放頻率限制,每季度對計劃進行一次審查。
14)流程和角色
Data/Observability Owners на домены (Payments, Games, Core API, Infra).
電路的變更控制:公關評論,測試臺,消費者兼容性。
Tabletop/Chaos-days:提供商斷開連接,經紀人過熱,背景調查/偶發性檢查。
Mortem後:包括遙測分析(信號充足、誤報、成本)。
15)實施路線圖(8至12周)
奈德。1-2:流量審核、源映射、SLO遙測目標、標準選擇(OTel、TSDB、跟蹤、日誌)。
奈德。3-4: OTel收集器,單個correlation-ID,基本RED/USE+業務SLI按存款/投註,流目錄v0。
奈德。5-6:基於tail的采樣、GEO合成、DLQ/相容性、隱私過濾器。
奈德。7-8:finOps面板(ingest/retention),downsampling,基數配額,SLO-alerta(burn-rate)。
奈德。9-10:eBPF/低級信號,狀態頁面,發布門。
奈德。11-12:混沌測試,成本優化,流形式化SLA,啟動季度計劃審查。
16)工件模板
Telemetry Stream Spec:id,所有者,計劃,QoS類,來源,消費者,重組,SLO/Alerts,隱私政策。
Schema PR Template:更改/遷移、兼容性、測試、回滾計劃。
采樣政策:異常情況下提高采樣的規則;目標預算。
Cost Review Pack:$/價值最高的來源,TTL/聚合優惠。
事件遠程檢查列表:RCA 需要的圖形/預告片/logs列表。
17) KPI/KRI遙測流
交貨:p95類延遲,每天丟失消息的百分比。
覆蓋範圍:關鍵路徑的比例為>90%, SLI比例為封閉度量。
信號質量:投訴前通過SLI捕獲的事件百分比,虛假/遺漏的異常。
費用:遙測$/RPS,$/trace,「噪音」在工程中的份額。
可靠性: 經紀人退化的恢復時間,反射量.
18)反模式
TSDB中的高堿度度量(userId,sessionId)。
單個「黑匣子」標誌,沒有結構和圖案。
缺少DLQ/冪等性 →雙倍和峰值損失。
沒有FinOps的「無限」復仇→賬戶的指數增長。
無業務背景(PSP/銀行/GEO)的跟蹤→診斷能力較弱。
團隊之間的不協調模式→打破消費者。
底線
遙測流是一個可控的多層系統:OTel標準和電路→帶有QoS和後壓的可靠噴射→采樣/聚集和延展成本→隱私和多重隱蔽隔離→ SLO-Alerta,dashborda和發布門。這樣的回路產生早期信號,快速RCA,可預測的成本以及iGaming平臺在峰值模式下的穩定性。