GH GambleHub

信号分布和指标

(部分: 生态系统和网络)

1)目的和领域

信号分配和度量标准是收集,规范化并向所有感兴趣的参与者提供遥测(事件,度量,徽标,跟踪,健康状态)的一致方法:运营商,内容提供商,支付/KUS服务,桥梁,网络节点,隶属关系和SRE/BI/Compliance命令。目标是:
  • 单一遥测语言和数据合同。
  • 托管QoS通道:优先考虑关键信号。
  • 透明的SLI/SLO和可预测的选择。
  • 隐私,隔离和预算节省指标。

2)信号分类

1.业务活动:讨价还价,存款/付款,游戏活动,归属。
2.技术指标:latency/throughput/错误代码,队列,使用CPU/RAM/IO。
3.Logs:结构化的操作和错误记录。
4.跟踪:span查询/拓扑,hop-to-hop相关性。
5.健康状况:合成前缀,准备/生活,心跳节点。
6.风险/合并信号:KYC/KYB/AML命中,制裁事件。

每个班级都有自己的关键级别和存储/交付策略。

3)分布架构(参考)

Edge收集器(SDK/Agent)→ Ingress(HTTP/OTLP/gRPC/QUIC)→ Sheena(Kafka/Pulsar)→处理器(stream-jobs)→存储(TSDB用于度量,对象/柱子-标志/事件,示踪剂)→ 店面/dashbords/alerta。
多重性:键中的namespace/tenant-id,单独的quota/limits/ACL。
根据QoS进行细分:关键(P0),重要(P1),背景(P2)。
Egress:订阅者(Ops/BI/Third-party)通过拓扑订阅和材料化观看。

4)合同和计划(事件/指标/预告片)

4.1个事件(简化,YAML)

yaml event:
id: uuid kind: business    ops    risk ts: timestamp    # ISO8601 tenant: string    # org_id/namespace source: string    # service/peer-id trace_id: string type: string     # deposit. created    payout. failed    probe. ok...
attrs: object # semantic fields (no PII)
severity: info    warn    error    critical qos: P0    P1    P2

4.2个度量(OpenMetrics/OTLP)

具有稳定标签(有限基数)的Gauge/Counter/Histogram。

标识符: "metric_name {service, region, tenant, version, route}".

代码中用于潜伏期/尺寸而不是p99的直方图。

4.3 Traces

必填字段是:"trace_id","span_id","parent_id","service","peer","route","qos"。
在域(消费者/生产者)和网络跳线(中继/桥)之间进行链接。

5)QoS和优先级

P0(关键):SLI付款/付款,桥梁/节点状态,burn-rate SLO →严格的交付(acks,retries,等效性),最小时间间隔。
P1(重要):产品事件/基本指标→ SLO内的保证交付。
P2(背景):详细的日志,调试→最好的effort,可以在拥塞时进行。

政客:不同的队列,生产者配额,后压,限额限制,"idempotency_key"的去世。

6)基数和预算指标

标签规则6:每个度量不超过6个键,固定值字典。
基数≤ 10 k 时间序列/度量/tenant。
采样:用于跟踪的头部/尾部;downsampling 10s→1m→5m→1h指标。
Quotas:每tentant和QoS类的点/秒和字节/秒限制。
Linter电路:拒绝带有"爆炸"标签(id,电子邮件,ip等)的指标。

7)收集和交付: push vs pull

推送(OTLP/StatsD/HTTP):灵活性,移动/边缘客户端,P0通道。
Pull (Prometheus):内部基础设施,可预测的目标。
混合体:exporters→gateway→TSDB;各地区的联合剪辑。
运输:QUIC/HTTP/2,压缩,战斗,TLS/mTLS,带喷射器的中继。

8) SLI/SLO和alerting

8.1基本的SLI

可用性百分之末端/网关,

Latency p50/p95/p99沿关键路线,

Error-rate (5xx/timeout/abort),

通过轮胎,Queue depth,

Freshness店面(延迟ingest→serve)。

8.2 SLO示例

P0 pipelines: Availability ≥ 99.95%, p99 latency ≤ 400 мс, Delivery lag p95 ≤ 2 с.

P1: Availability ≥ 99.9%,Freshness p95 ≤ 3分钟。

P2: Freshness p95 ≤ 15 мин, no-page.

8.3 Burn-rate alerta(示例)

2小时窗口:'error_budget_burn ≥ 2 × '→页。
6小时窗口:'error_budget_burn ≥ 1 × '→ page/升级。
与"queue_lag"和"drop_rate" P0组合。

9)保管处及保管处

TSDB指标:高频-7-14天;总量为6-12个月。
事件/记录:热存储7-30天,冷(对象)6-24个月。
Traces: sampling 1-10%;保留"缓慢/有缺陷"的旋转(基于尾巴)。
PII的删除/修订策略和数据主体的请求。

10)隐私、安全和隔离

PII最小化:字段令牌/别名,禁止度量标准中的"原始"ID。
mTLS/事件签名,固定制作人密钥。
ACL/ABAC 的主题/服务/tenants,写作/读取的单个密钥。
Tenant sandboxing:逻辑/物理分离、限制和限额。
Audit trail:不可更改的访问/更改日志。

11)处理流(stream jobs)

Enrich:正常化,地理/版本/流量类。
Aggregate:10 s/1m/5m窗口,直方图,量子草图。
检测:异常(EWMA/ESD),分布漂移,队列爆发。
路线:粉丝进入店面/alerters/webhooks合作伙伴。
Guard:"红色按钮"-throttling/kill-switch按源/主题。

12)Dashbords(参考模型)

Ops Core (小时/real time): p95 latency, error-rate, delivery lag, queue depth, success-rate ingest.

Pipelines Health: freshness per pipeline, drop-rate, backpressure, burn-rate SLO.

Tenant Usage:行/秒、字节/秒、基数、顶级标签。
安全/合规性:mTLS状态,到期键,可用性,PII修订版。
商业镜头:转化/支付/桥接SLI旁边的那些指标。

13)配置示例

QoS类和限制(YAML)

yaml telemetry:
qos:
P0:
topics: [payout. sli, bridge. finality, gateway. availability]
delivery: guaranteed retry:
attempts: 3 backoff_ms: [100, 400, 800]
max_queue_lag_ms: 2000
P1:
topics: [product. events, api. metrics]
delivery: at-least-once sampling: 1. 0
P2:
topics: [debug. logs, verbose. traces]
delivery: best-effort sampling: 0. 1 quotas:
tenant_default:
metrics_points_per_sec: 50_000 logs_mb_per_hour: 500 traces_spans_sampled_pct: 5

标签指标(策略)

yaml metrics_policy:
allowed_labels: [service, route, code, region, tenant, version]
forbidden_labels: [user_id, email, ip, session_id]
max_label_value_count: 1000
🚨 Check Alerta burn-rate
yaml alerts:
- name: "p0_error_burn_2h"
expr: burn_rate_p0_2h > 2 action: [page_oncall, open_incident]
- name: "queue_lag_p0"
expr: queue_lag_ms_p95 > 2000 action: [page_oncall]

14)数据图和查询

指标寄存器(目录)

sql
CREATE TABLE metric_catalog(
name TEXT PRIMARY KEY,
unit TEXT, description TEXT,
labels JSONB, owner TEXT, qos TEXT, sla JSONB
);

队列和阵列

sql
SELECT topic,
PERCENTILE_CONT(0. 95) WITHIN GROUP (ORDER BY lag_ms) AS lag_p95,
SUM(dropped) AS drops
FROM queue_metrics
WHERE ts >= now() - INTERVAL '24 hours'
GROUP BY topic;

Tentant的红衣主教

sql
SELECT tenant, metric_name, COUNT(DISTINCT series_id) AS series
FROM tsdb_series
WHERE day = current_date
GROUP BY tenant, metric_name
ORDER BY series DESC
LIMIT 50;

15)流程和角色

Telemetry Owner-计划/政策/配额,基本控制。
SRE/Ops-SLO,Alerts,事件,缩放。
Security/Compliance-密钥、访问、PII、审核。
产品/BI是KPI,分析,A/B度量的展示。
Tenants(合作伙伴)-正确的SDK集成和合同合规性。

16)事件剧本

A.基本性爆炸

1.生产者自动块/度量,2)切断"坏"标签,3)复古聚合,4)后太平间和林特规则。

B. queue lag P0的增长

1.包括优先级,2)扩大政党/消费者,3)暂时降低P2采样,4)瓶颈分析。

C. Freshness店面倒塌

1.切换到备用连接器,2)启用降级模式("最后最终化"),3)通知源的所有者。

D.指标中的PII泄漏

1.立即锁定线程,2)热层上的干扰,3)DPO/Compliance通知,4)磁带/SDK更新。

E.大量5 x/跟踪错误

1.Paige,2)基于尾巴的误差采样↑,3)关键路由的跟踪诊断,4)发行回滚/幻灯片标志。

17)实施支票

1.批准事件/指标/预告片合同和有效标签列表。
2.启动QoS类、拓扑/队列、quotas和预算指标。
3.自定义ingest (push/pull)、TLS/mTLS、retrai和等效性。
4.包括度量/事件目录和电路linter。
5.定义SLI/SLO、burn-rate alerta和升级。
6.建立Ops/Pipelines/Tenant/Security dashbords。
7.运行遥测溷沌测试(损失/抖动/尖峰)。
8.定期审核基本性、可信度和存储成本。

18)词汇表

QoS是质量/交付优先级类别。
Freshness-延迟数据出现在店面。
Burn-rate-相对于SLO的错误预算支出率。
Cardinality是唯一度量级数(标签组合)的数量。
基于尾巴的采样是"缓慢/错误"跟踪的样本。
Idempotency key是重复数据消除事件的关键。

底线:信号和指标的分配不仅仅是"收集和显示图表",而是合同、质量保证渠道和预算的纪律。遵循此框架,生态系统将获得可预测的可观察性,可抵抗激增,对数据私有化,并且可用于运营和业务环路中的解决方案。

Contact

联系我们

如需任何咨询或支持,请随时联系我们。我们随时准备提供帮助!

Telegram
@Gamble_GC
开始集成

Email — 必填。Telegram 或 WhatsApp — 可选

您的姓名 可选
Email 可选
主题 可选
消息内容 可选
Telegram 可选
@
如果填写 Telegram,我们也会在 Telegram 回复您。
WhatsApp 可选
格式:+国家代码 + 号码(例如:+86XXXXXXXXX)。

点击按钮即表示您同意数据处理。