GH GambleHub

遥测流

1)目的和上下文

遥测流提供了有关平台运行的观测数据的连续涌入:发生了什么,为什么以及花费多少。在iGaming中,这是早期发现存款/赌注降解,外部提供商(PSP/KYC/游戏工作室)的可见性以及可证明的SLO/合规性的关键。

2)遥测源图

度量(TSDB):RED/USE,商业SLI(授权成功,利率成功)。
Traces (OTel):前端查询链→ API →经纪人→ DB/PSP。
Logs(结构化):事件、操作审核、错误。
RUM:TTFB/LCP,JS错误,地理/设备。
合成:来自不同GEO的外部试用交易(登录/存款/"沙滩"利率)。
低级遥测:eBPF/CPU/IO/alloc,网络p95/p99。
外部状态:PSP/KYC/CDN/WAF webhooks/池。

3)标准和计划

OpenTelemetry作为lingua franca:统一属性语义(服务)。name, deployment.environment, enduser.id-伪装,trace/SpanID,PSP码)。
方案约定:转换,Logs/Trace的方案,仅通过二进制标志和宽限期的"突破性变化"。
Correlation-ID:单个"correlation_id"用于在度量值中通过所有层+exemplars进行支付/投注。

4)无花果输送机(高水平)

1.生产者:SDK/代理商/收集器(节点上的OTel Collector)。
2.边缘缓冲:具有限制的本地队列(内存/磁盘)。
3.Transport: gRPC/HTTP OTLP →带有idempotency密钥的消息代理(Kafka/Pulsar)。
4.处理器:正常化,富集(GEO/tenant/通道),PII过滤器,精细采样。
5.Fan-out:在TSDB(度量)中,在轨道存储中,在日志系统中,在lake/DWH中,在alerting/规则中。
6.消费者:dashbords,SLO-alerta(burn-rate),调查,状态页面,自动门发布。

5) QoS和线程类

A类(实时,P1): SLI/SLO,合成剂,关键提供商(PSP/KYC)。交付的SLA: <5-10 c, ≥99。9%.

B类(运营):RCA,SLA的预告片/标志:<1-2分钟。
C类(分析):湖泊/DWH的单位和蹦床,SLA:每小时。
类路由→优先级、不同的转义、单独的队列/拓扑。

6)采样,聚合,重组

度量:历史序列(1s→10s→1m)的下游,胡椒聚合,exemplars。
Traces:基于尾巴的采样(提高异常、PSP错误、p99-"爆发"的比例)。
Logs:按轮廓、压缩、噪音丢弃(健康品格、销售DEBUG-禁止)。
重建:"热"(7-14天的部件),"冷"(单元/存档)。每类数据策略和成本。

7)隐私和合规性

PII卫生:身份伪装/令牌化;在遥测中禁止CUS/卡令牌文档。
地理位置化:跨辖区的存储;导出-仅通过批准的工作流(加密、TTL、审核)。
访问控制:遥测存储的RBAC/ABAC,上载的SoD。

8)线程可靠性

相似性:事件的钥匙,处理器中的去势。
Backpressure:按特南特/服务喷射限制;过载时低优先级字段的drop策略。
Replays:存储在≥72 h经纪人中进行重新处理。
Dead-letter:将错误(电路、大小、PII违规)路由到带有警报的安全的DLQ。
转化:电路变化(v1+v2)和消费者迁移时的"双线程"。

9) Multi-tenant和隔离

每个事件中的"tenant_id/brand/region"标签;常设配额和预算。
通过拓扑隔离A/B流;showback/chargeback通过喷射和存储。
导出时伪装/聚合到tenant边界。

10)线程目录(示例字段)

ID: 'telemetry。payments.auth.success.rate.eu`

班级: A(实时)

Схема: `{timestamp, tenant, region, psp, bank_bin_group, success_rate, window}`

资料来源: OTel Collector+PSP-router metrics

消费者: SLO-Alerta, Exec-dashbord, Status Page

重组: 热30天,聚合12个月

所有者: Payments SRE,dpo-owner(隐私)

流SLO: 延迟<10 c p95,损失<0。1%/天

11)与Alerting和发行版集成

SLO-alerta按燃烧率(快速/慢速窗口)进行存款/投注。
Release-gates:SLI的金丝雀分析;退化时自动停止/滚回。
状态页面:事件卡+SLI分组更新。

12)一组关键的dashbords

高管:药房,烧毁率,授权/投注成功(通过GEO/PSP),提供商状态,$/RPS遥测。
SRE/平台:RED/USE按服务,lag队列,outlier检测,eBPF配置文件。
Payments/Risk:按银行/PSP,软/硬标记,KYC SLA,早期充电信号转换。
Cost-obs:按来源排列的喷射量,按基数排列的顶级标签,按线程排列的成本。

13)可观察性财务(FinOps)

KPI价值:$/GB ingest,$/trace,$/SLI-dashbord;关于"重"指标和标签的报告。
优化:聚合和降级,动态采样,清理聊天日志,存储类的重要性。
政策:高红衣主教配额,排放频率限制,每季度对计划进行一次审查。

14)流程和角色

Data/Observability Owners на домены (Payments, Games, Core API, Infra).

电路的变更控制:公关评论,测试台,消费者兼容性。
Tabletop/Chaos-days:提供商断开连接,经纪人过热,背景调查/偶发性检查。
Mortem后:包括遥测分析(信号充足、误报、成本)。

15)实施路线图(8至12周)

奈德。1-2:流量审核、源映射、SLO遥测目标、标准选择(OTel、TSDB、跟踪、日志)。
奈德。3-4: OTel收集器,单个correlation-ID,基本RED/USE+业务SLI按存款/投注,流目录v0。
奈德。5-6:基于tail的采样、GEO合成、DLQ/相容性、隐私过滤器。
奈德。7-8:finOps面板(ingest/retention),downsampling,基数配额,SLO-alerta(burn-rate)。
奈德。9-10:eBPF/低级信号,状态页面,发布门。
奈德。11-12:混沌测试,成本优化,流形式化SLA,启动季度计划审查。

16)工件模板

Telemetry Stream Spec:id,所有者,计划,QoS类,来源,消费者,重组,SLO/Alerts,隐私政策。
Schema PR Template:更改/迁移、兼容性、测试、回滚计划。
采样政策:异常情况下提高采样的规则;目标预算。
Cost Review Pack:$/价值最高的来源,TTL/聚合优惠。
事件远程检查列表:RCA 需要的图形/预告片/logs列表。

17) KPI/KRI遥测流

交货:p95类延迟,每天丢失消息的百分比。
覆盖范围:关键路径的比例为>90%, SLI比例为封闭度量。
信号质量:投诉前通过SLI捕获的事件百分比,虚假/遗漏的异常。
费用:遥测$/RPS,$/trace,"噪音"在工程中的份额。

可靠性: 经纪人退化的恢复时间,反射量.

18)反模式

TSDB中的高碱度度量(userId,sessionId)。
单个"黑匣子"标志,没有结构和图案。
缺少DLQ/幂等性 →双倍和峰值损失。
没有FinOps的"无限"复仇→账户的指数增长。
无业务背景(PSP/银行/GEO)的跟踪→诊断能力较弱。
团队之间的不协调模式→打破消费者。

底线

遥测流是一个可控的多层系统:OTel标准和电路→带有QoS和后压的可靠喷射→采样/聚集和延展成本→隐私和多重隐蔽隔离→ SLO-Alerta,dashborda和发布门。这样的回路产生早期信号,快速RCA,可预测的成本以及iGaming平台在峰值模式下的稳定性。

Contact

联系我们

如需任何咨询或支持,请随时联系我们。我们随时准备提供帮助!

开始集成

Email — 必填。Telegram 或 WhatsApp — 可选

您的姓名 可选
Email 可选
主题 可选
消息内容 可选
Telegram 可选
@
如果填写 Telegram,我们也会在 Telegram 回复您。
WhatsApp 可选
格式:+国家代码 + 号码(例如:+86XXXXXXXXX)。

点击按钮即表示您同意数据处理。