GH GambleHub

业务和管理→审计指标和SLA

审核指标和SLA

1)为什么需要它

如果指标不正确-解决方案不正确,则SLA将"在纸上"被打破,反之亦然地隐藏问题。度量和SLA审核可确保对用户和合作伙伴的承诺的可比性,可信性和法律安全性。

目标是:
  • 提供单一的"真相来源"(SSOT)和可重现的计算。
  • 减少行车记录/报告/计费之间的差异。
  • 使SLA可行且可验证(基于evidence)。
  • 在测量中检测降解的时间与服务中的降解时间一样早。

2)责任的基本概念和界限

度量(度量):可测量的量(RPS,p95,CR,GGR,成功率)。
KPI/OKR:指标绑定的目标。
SLO:目标服务质量(例如"p99 ≤ 400 ms 99"。9%的时间")。
SLA:外部承诺;具有法律意义,基于SLO。
OLA:团队/供应商之间的内部协议,支持SLA。
SSOT:其数据被视为报告参考的系统/存储。

3)分类学指标(层)

1.基础架构:CPU/Memory/IO/Net,Pod/节点,HPA/VPA。
2.平台:队列/流(lag,throughput),DB/缓存(连接,命中),API(p95/p99,5xx)。
3.业务流:存款/收款,投注,游戏启动,授权,KYC。
4.产品/营销:转换,ARPPU/LTV,广告系列。
5.流程质量:MTTA/MTTR,更改故障率,清单覆盖。

规则:每个度量必须具有层,所有者和公式。

4)数据来源和"真相"

在线电视计量学:Prometheus/OTel,logi(ELK/ClickHouse),跟踪。
活动和会计:Kafka/Outbox,DWH/日期发布会(BigQuery/ClickHouse)。
手工制品:验尸、滴答作响、事件登记册。
外部注册:提供商报告(PSP/KYC/工作室),计费。

冲突解决方案:对于"Online vs DWH"的差异,有优先权规定(例如,对于SLA,来自DWH的聚合具有源跟踪性)。

5)度量审计过程(管理轮廓)

1.清单:指标目录/SLO/SLA(名称,所有者,层,公式,来源,计算频率)。
2.公式验证:将SQL/prom查询与定义(单位计算测试)进行对账。
3.采样和重新排序:抽样事件/日志行和手动对账。
4.轮廓映射:比较在线行车记录和DWH报告。
5.更改控制:在电路/逻辑发布时通过公式的评论。
6.SLA审核:验证装配和异常是否正确(计划维护、不可抗力)。
7.报告和改进:发现的差异和截止日小说的列表。

6)定义和公式(样本)

Success Rate (API):

`success = requests - (5xx + timeouts + circuit_open)`

`success_rate = success / requests`

Latency p95/p99:

SSOT包含一个窗口定义(滚动5m/1h)和聚合定义(HDR/TDigest)。

SLO(示例):
  • "SLO_availability_month=(时间_工作是有效的_例外)/一般_时间"
SLA(提供商的示例):
  • `SLA_month = 99.UTC窗口上有90%的药房,不包括计划窗口(T-48通知),可证明的过境运营商事故(文件)"

7)数据质量: 验证和异同

质量检查:
  • Полнота (completeness): `received_events / expected_events ≥ 0.99`.
  • 及时(时效):加载时差≤ N分钟。
  • 唯一性(uniqueness):不使用按键(idempotency-key)。
  • 一致性(一致性):金额/货币/符号。
  • 线性(monotonicity)-计数器不会"回滚"。
关于测量质量(想法)的Alerts:

ALERT MetricsIngestionLagHigh
IF dwh_ingest_lag_minutes > 15 FOR 10m

ALERT EventsCompletenessDrop
IF (events_received / events_expected) < 0. 99 FOR 15m

ALERT DuplicateEventsSpike
IF rate(events_duplicates_total[10m]) > baseline_7d 2

8)SLA/OLA审计: 方法

1.收集例外日历:计划窗口、商定的降级、供应商行为。
2.Uptime计算:通过一个时间区,依靠SSOT。
3.事件核对:时间线、门票、验尸。

4.归因: 自身故障,提供商,过境,DDoS,管理工作.

5.SLA外围:用户体验(E2E) vs一个特定的API。
6.报告:月份/季度报告:事实、拒绝、赔偿(如适用)、纠正措施。

9)验证计算的可重复性

公式验证:具有SQL/PromQL/基座规范的 Git存储库。
单位度量测试:在合成数据上(边缘桉例:跳过、双打、日期边界)。
数据线:从行车记录仪回到源表和事件。
Snapshots:将数据冻结到截止点,以便笔计算可比。

10)控制样本(采样)

每天:按关键流(押金/利率/KUS)进行10-20个事件-手动跟踪对账↔ DWH。
每周:1%的样本用于比较"Online vs DWH"。
每月:一组SLA效应事件-详细重建。

样本行为模板(简述):

Date/Window: 2025-10-01.. 2025-10-07
Metric: SLO_api_p99
Source A: Prometheus (rolling 5m)
Source B: DWH snapshot (1h buckets)
Deviation: + 6. 2% (A above B)
Reason: different aggregation windows
Action: align window in both contours to 5m/rolling
Term/Owner: 2025-11-10/squad-observability

11)审核行车记录和警报

单一度量词典:直接在行车记录仪上的词汇表。
版本/活动注释:查看偏差的原因。
发布前/发布后比较:自动回归面板。
双重/差异:识别"两个不同的p99"-编辑公式/窗口。
面板可用性:权限、备份、链接/版本控制。

12)指标变更管理

RFC过程:更改公式/窗口/源-通过RFC评估对SLA/报告的影响。
迁移"expand → migrate → contract":暂时运行两个版本,我们进行比较,然后关闭旧版本。
通信:"通过新方法"提前通知产品/企业值变化。

13) iGaming/fintech的细节

需求峰值:度量必须承受爆炸载荷(聚集不是"扎根")。
提供商:SLA依赖供应商的OLA →保留其报告,事件状态和配额。
成本:"cost_per_1k_calls"和"成功成本"是必备的面板。
防冻风险:对延迟和"误报"指标的敏感性。

14) Dashbords审计(最低设置)

Metrics Health: completeness/timeliness/duplicates, ingest-lag, ошибки ETL.

SLO/SLA Evidence:计算的SLO,实际的SLA,例外,事件/行为引用。
Online vs DWH Compare:p95/p99/Success率、偏差和趋势。
Vendor SLA:按供应商划分的药房/配额/超时/成本。
Release Impact:放置/打开幻灯片后的指标回归。

15)审计支票清单(运营)

  • 具有所有者和公式的指标/SLO/SLA目录是相关的。
  • SSOT是为每个报告/面板定义的。
  • 公式的统一测试是绿色的,计算的管道已记录下来。
  • 对数据质量的Alerta是活跃的(完整性/时效性/双重性)。
  • "Online vs DWH" ≤允许阈值的差异(例如≤2%)。
  • 统一的SLA豁免已记录下来,并附在报告中。
  • 进行了检查抽样并确定了行为。
  • 所有公式更改均通过RFC和迁移。

16)示例(片段)

PromQL-发布前/发布后p99的比较:

api_p99_ms:release:ratio =
(api_latency_p99_ms{release="after"} / api_latency_p99_ms{release="before"})
SQL-控制事件的完整性:
sql
SELECT event_date,
COUNT() AS received,
SUM(expected_count) AS expected,
COUNT()::decimal / NULLIF(SUM(expected_count),0) AS completeness
FROM events
JOIN expected_events USING (event_date, event_type)
WHERE event_type IN ('deposit','bet_placed','kyc_completed')
AND event_date BETWEEN:from AND:to
GROUP BY 1;
Alertmanager规则-轮廓的差异:

ALERT DwhVsOnlineDrift
IF abs(dwh_kpis{metric="api_p99"} - online_kpis{metric="api_p99"}) > 0. 02 online_kpis
FOR 30m
LABELS {severity="warning", team="observability"}

17)反模式

不同面板上两个不同的"相同"度量公式。
更改未迁移和通知的度量标准是OKR/SLA中的"跳跃"。
本地Excel中的报告为"真相"(不可复制)。
SLA计算中时区和日历的混合。
SLA例外没有记录在案。
测量质量没有差异。

18)测量成熟度KPI

漂移率Online↔DWH(目标≤2%)。
Metrics Health Uptime(没有最大/ETL降解的时间)。
时间到修复公式(解决公式错误的时间)。
SLA Dispute Rate(与合作伙伴发生有争议案件的频率)。
Coverage SLO/SLA(正式描述为SLO/SLA的关键路径比例)。

19)角色和责任

度量/服务的所有者:公式,来源,dashbord,alertes。
Observability/SRE:SSOT/平台,公式测试,数据质量差异。
数据/BI: DWH,报告可重现性,lineage。
律师/合伙人经理:SLA安排和例外。
事件经理:与SLA的事件归因和捆绑。

20)快速启动(30天)

第一周:度量清单/SLO/SLA和所有者;指定SSOT。
第二周:包括数据质量差异和"Online vs DWH"面板。
第3周:进行控制抽样,平整p95/p99的视线。
第4周:将公式的RFC过程正式化,编写带有应用程序的月度SLA报告。

21) FAQ

Q: SSOT对于SLA算什么?

A:可重复计算存储(DWH)和全线存储;在线面板-用于操作控制,不用于法律行为。

问:如何对抗"两个p99"?
答:将窗口/聚合方法锁定在度量目录中,迁移面板,在漂移中添加警报。

问:如何考虑计划工作?
答:维护例外日历,并根据合同规则自动从SLA中减去它们;储存确认文物。

Contact

联系我们

如需任何咨询或支持,请随时联系我们。我们随时准备提供帮助!

Telegram
@Gamble_GC
开始集成

Email — 必填。Telegram 或 WhatsApp — 可选

您的姓名 可选
Email 可选
主题 可选
消息内容 可选
Telegram 可选
@
如果填写 Telegram,我们也会在 Telegram 回复您。
WhatsApp 可选
格式:+国家代码 + 号码(例如:+86XXXXXXXXX)。

点击按钮即表示您同意数据处理。