信号分布和指标

（部分： 生态系统和网络）

1）目的和领域

信号分配和度量标准是收集，规范化并向所有感兴趣的参与者提供遥测（事件，度量，徽标，跟踪，健康状态）的一致方法：运营商，内容提供商，支付/KUS服务，桥梁，网络节点，隶属关系和SRE/BI/Compliance命令。目标是：

单一遥测语言和数据合同。
托管QoS通道：优先考虑关键信号。
透明的SLI/SLO和可预测的选择。
隐私，隔离和预算节省指标。

2）信号分类

1.业务活动：讨价还价，存款/付款，游戏活动，归属。
2.技术指标：latency/throughput/错误代码,队列,使用CPU/RAM/IO。
3.Logs：结构化的操作和错误记录。
4.跟踪：span查询/拓扑,hop-to-hop相关性。
5.健康状况：合成前缀,准备/生活,心跳节点。
6.风险/合并信号：KYC/KYB/AML命中，制裁事件。

每个班级都有自己的关键级别和存储/交付策略。

3）分布架构（参考）

Edge收集器（SDK/Agent）→ Ingress（HTTP/OTLP/gRPC/QUIC）→ Sheena（Kafka/Pulsar）→处理器（stream-jobs）→存储（TSDB用于度量，对象/柱子-标志/事件，示踪剂）→ 店面/dashbords/alerta。
多重性：键中的namespace/tenant-id,单独的quota/limits/ACL。
根据QoS进行细分：关键（P0），重要（P1），背景（P2）。
Egress：订阅者（Ops/BI/Third-party）通过拓扑订阅和材料化观看。

4）合同和计划（事件/指标/预告片）

4.1个事件（简化，YAML）

yaml event:
id: uuid kind: business    ops    risk ts: timestamp    # ISO8601 tenant: string    # org_id/namespace source: string    # service/peer-id trace_id: string type: string     # deposit. created    payout. failed    probe. ok...
attrs: object # semantic fields (no PII)
severity: info    warn    error    critical qos: P0    P1    P2

4.2个度量（OpenMetrics/OTLP）

具有稳定标签（有限基数）的Gauge/Counter/Histogram。

标识符： "metric_name {service, region, tenant, version, route}".

代码中用于潜伏期/尺寸而不是p99的直方图。

4.3 Traces

必填字段是："trace_id"，"span_id"，"parent_id"，"service"，"peer"，"route"，"qos"。
在域（消费者/生产者）和网络跳线（中继/桥）之间进行链接。

5）QoS和优先级

P0（关键）：SLI付款/付款，桥梁/节点状态，burn-rate SLO →严格的交付（acks，retries，等效性），最小时间间隔。
P1（重要）：产品事件/基本指标→ SLO内的保证交付。
P2（背景）：详细的日志,调试→最好的effort,可以在拥塞时进行。

政客：不同的队列，生产者配额，后压，限额限制，"idempotency_key"的去世。

6）基数和预算指标

标签规则6：每个度量不超过6个键，固定值字典。
基数≤ 10 k 时间序列/度量/tenant。
采样：用于跟踪的头部/尾部；downsampling 10s→1m→5m→1h指标。
Quotas：每tentant和QoS类的点/秒和字节/秒限制。
Linter电路：拒绝带有"爆炸"标签（id，电子邮件，ip等）的指标。

7）收集和交付： push vs pull

推送（OTLP/StatsD/HTTP）：灵活性，移动/边缘客户端，P0通道。
Pull （Prometheus）：内部基础设施,可预测的目标。
混合体：exporters→gateway→TSDB；各地区的联合剪辑。
运输：QUIC/HTTP/2，压缩，战斗，TLS/mTLS，带喷射器的中继。

8） SLI/SLO和alerting

8.1基本的SLI

可用性百分之末端/网关，

Latency p50/p95/p99沿关键路线，

Error-rate (5xx/timeout/abort),

通过轮胎，Queue depth，

Freshness店面（延迟ingest→serve）。

8.2 SLO示例

P0 pipelines: Availability ≥ 99.95%, p99 latency ≤ 400 мс, Delivery lag p95 ≤ 2 с.

P1: Availability ≥ 99.9%，Freshness p95 ≤ 3分钟。

P2: Freshness p95 ≤ 15 мин, no-page.

8.3 Burn-rate alerta（示例）

2小时窗口：'error_budget_burn ≥ 2 × '→页。
6小时窗口：'error_budget_burn ≥ 1 × '→ page/升级。
与"queue_lag"和"drop_rate" P0组合。

9）保管处及保管处

TSDB指标：高频-7-14天；总量为6-12个月。
事件/记录：热存储7-30天,冷（对象）6-24个月。
Traces： sampling 1-10%；保留"缓慢/有缺陷"的旋转（基于尾巴）。
PII的删除/修订策略和数据主体的请求。

10）隐私、安全和隔离

PII最小化：字段令牌/别名，禁止度量标准中的"原始"ID。
mTLS/事件签名，固定制作人密钥。
ACL/ABAC 的主题/服务/tenants，写作/读取的单个密钥。
Tenant sandboxing：逻辑/物理分离、限制和限额。
Audit trail：不可更改的访问/更改日志。

11）处理流（stream jobs）

Enrich：正常化，地理/版本/流量类。
Aggregate：10 s/1m/5m窗口，直方图，量子草图。
检测：异常（EWMA/ESD），分布漂移，队列爆发。
路线：粉丝进入店面/alerters/webhooks合作伙伴。
Guard："红色按钮"-throttling/kill-switch按源/主题。

12）Dashbords（参考模型）

Ops Core （小时/real time）： p95 latency, error-rate, delivery lag, queue depth, success-rate ingest.

Pipelines Health: freshness per pipeline, drop-rate, backpressure, burn-rate SLO.

Tenant Usage：行/秒、字节/秒、基数、顶级标签。
安全/合规性：mTLS状态，到期键，可用性，PII修订版。
商业镜头：转化/支付/桥接SLI旁边的那些指标。

13）配置示例

QoS类和限制（YAML）

yaml telemetry:
qos:
P0:
topics: [payout. sli, bridge. finality, gateway. availability]
delivery: guaranteed retry:
attempts: 3 backoff_ms: [100, 400, 800]
max_queue_lag_ms: 2000
P1:
topics: [product. events, api. metrics]
delivery: at-least-once sampling: 1. 0
P2:
topics: [debug. logs, verbose. traces]
delivery: best-effort sampling: 0. 1 quotas:
tenant_default:
metrics_points_per_sec: 50_000 logs_mb_per_hour: 500 traces_spans_sampled_pct: 5

标签指标（策略）

yaml metrics_policy:
allowed_labels: [service, route, code, region, tenant, version]
forbidden_labels: [user_id, email, ip, session_id]
max_label_value_count: 1000

🚨 Check Alerta burn-rate

yaml alerts:
- name: "p0_error_burn_2h"
expr: burn_rate_p0_2h > 2 action: [page_oncall, open_incident]
- name: "queue_lag_p0"
expr: queue_lag_ms_p95 > 2000 action: [page_oncall]

14）数据图和查询

指标寄存器（目录）

sql
CREATE TABLE metric_catalog(
name TEXT PRIMARY KEY,
unit TEXT, description TEXT,
labels JSONB, owner TEXT, qos TEXT, sla JSONB
);

队列和阵列

sql
SELECT topic,
PERCENTILE_CONT(0. 95) WITHIN GROUP (ORDER BY lag_ms) AS lag_p95,
SUM(dropped) AS drops
FROM queue_metrics
WHERE ts >= now() - INTERVAL '24 hours'
GROUP BY topic;

Tentant的红衣主教

sql
SELECT tenant, metric_name, COUNT(DISTINCT series_id) AS series
FROM tsdb_series
WHERE day = current_date
GROUP BY tenant, metric_name
ORDER BY series DESC
LIMIT 50;

15）流程和角色

Telemetry Owner-计划/政策/配额，基本控制。
SRE/Ops-SLO，Alerts，事件，缩放。
Security/Compliance-密钥、访问、PII、审核。
产品/BI是KPI，分析，A/B度量的展示。
Tenants（合作伙伴）-正确的SDK集成和合同合规性。

16）事件剧本

A.基本性爆炸

1.生产者自动块/度量，2）切断"坏"标签，3）复古聚合，4）后太平间和林特规则。

B. queue lag P0的增长

1.包括优先级，2）扩大政党/消费者，3）暂时降低P2采样，4）瓶颈分析。

C. Freshness店面倒塌

1.切换到备用连接器,2）启用降级模式（"最后最终化"）,3）通知源的所有者。

D.指标中的PII泄漏

1.立即锁定线程,2）热层上的干扰,3）DPO/Compliance通知,4）磁带/SDK更新。

E.大量5 x/跟踪错误

1.Paige，2）基于尾巴的误差采样↑，3）关键路由的跟踪诊断，4）发行回滚/幻灯片标志。

17）实施支票

1.批准事件/指标/预告片合同和有效标签列表。
2.启动QoS类、拓扑/队列、quotas和预算指标。
3.自定义ingest （push/pull）、TLS/mTLS、retrai和等效性。
4.包括度量/事件目录和电路linter。
5.定义SLI/SLO、burn-rate alerta和升级。
6.建立Ops/Pipelines/Tenant/Security dashbords。
7.运行遥测溷沌测试（损失/抖动/尖峰）。
8.定期审核基本性、可信度和存储成本。

18）词汇表

QoS是质量/交付优先级类别。
Freshness-延迟数据出现在店面。
Burn-rate-相对于SLO的错误预算支出率。
Cardinality是唯一度量级数（标签组合）的数量。
基于尾巴的采样是"缓慢/错误"跟踪的样本。
Idempotency key是重复数据消除事件的关键。

底线：信号和指标的分配不仅仅是"收集和显示图表",而是合同、质量保证渠道和预算的纪律。遵循此框架，生态系统将获得可预测的可观察性，可抵抗激增，对数据私有化，并且可用于运营和业务环路中的解决方案。

信号分布和指标

标签指标（策略）

队列和阵列

Tentant的红衣主教

联系我们

快速联系

视频即将更新

我们目前正忙于各项项目