网络健康评估
1)什么是"网络健康",为什么要衡量它
网络健康是生态系统在需求激增,故障和变化中稳定提供目标服务水平(SLO),安全性,成本效益和可预测的演变的能力状态。
评价目标:- 及早发现退化和风险;
- 实事求是地管理关税、配额、奖励和优先事项;
- 参与者(节点、提供商、运营商、创建者、附属机构)的透明度;
- podpitka治理解和后解。
2)健康领域地图
1.性能和可用性:latency/throughput, error rate, finality,队列。
2.可靠性和可持续性:MTBF/MTTR,后压,QoS降解。
3.安全性和信任:身份验证/授权,完整性事件,剥离,虚假。
4.经济和效率:成本服务,利润/信息,资源公平。
5. 治理和流程:参数收敛速度、无故障发布、报告纪律。
6.合规性和隐私:地质/年龄,制裁,数据存储/删除,ZK-prufs。
3)分类学指标(参考)
3.1个性能(每级QoS)
Latency p50/p95/p99, TailAmplification = p99/p50.
Throughput (msgs/s, tx/s, GB/s DA), queue depth, consumer lag.
Success rate, timeouts/retries%, duplicate ratio, out-of-order%.
Finality lag (x-chain/bridge), challenge-окна.
3.2可靠性
SLA 破发/1k事件,MTBF/MTTR,flap-rate平衡器。
Backpressure recovery time, DLQ depth, replay success%.
3.3安全性
完整性/订单盗窃事件,可疑信号/1k,
对应关系中的False Accept/Reject、密钥/签名冲突。
压碎事件,甲骨文差异,MEV曝光(如果适用)。
3.4经济学
Cost/Req,Cost/GB DA,保证金/消息,收入/字节,
NRR/GRR,ARPU/ARPPU,再收入份额,
FairnessIndex (Jain) по CPU/GPU/IO/egress, noisy neighbor index.
3.5治理和流程
无回滚发行成功,proposal协调时间,
参数调整速度(收敛)、基线覆盖。
3.6合规与隐私
经过DID/VC检测、按性别/年龄划分的锁定,
响应监管机构请求的时间、存储/处置事件。
4)综合网络健康指数(ISS)
ISS是来自sap指数的混合材料:性能(PFI),可信性(RLI),安全与信托(STI),经济学(ECI),政府(GVI),合规性(CFI)。
度量标准化:- 根据[P5,P95]的robust z-score或robust min-max;EWMA平滑;尾巴的winsorization。
[
\text{SubIndex}k=\sum_i w{k,i},\hat m_{k,i},\quad
\text{ИЗС}=\sum_k W_k,\text{SubIndex}k,\ \sum W_k=1,
]
其中权重(W_k)和(w {k, i})存储在政府登记册中,并根据日落程序进行更改。
区域地标:- 绿色:ISS ≥ 0。70-配额/数量增长,质量奖金。
- 黄色:0。50–0.70点调音,调查。
- 红色:<0。50-停止起重机,降低限制,专注于MTTR/校正。
5)阈值SLO和"门"(gates)
目标SLO的示例(reguliruyutsya治理):- Q4 API: success ≥ 99.99%、p95 ≤ 200毫秒、DLQ=0。
- Q3消息:违反命令≤ 10⁻⁶/soobshch ,p95 ≤ 500毫秒。
- Bridge/Finality:虚假确认=0;MTTR异常≤ 1小时。
- DA:终结≤ 3 × T_block;throughput ≥ X GB/ч.
- Batch/Stream:T窗口的库存≥ 20%;lag ≤ 2×window.
- 安全:完整性事件=0;FPR/FNR在走廊中。
SLO违规→自动触发器(§8)。
6)数据收集、质量和保护
等效性/滞后性:ULID/trace,带有TTL 的seen表。
E2E跟踪:通过域/桥/DA的"x_msg_id"相关性。
反游戏:盲目运行窗口,隐藏控制任务,合成样本。
隐私:DID/VC,选择性披露,ZK门槛。
有效性:事件签名,战斗善变,对日志进行审核。
7)Dashbords"健康"
Network Health Overview:ISS和sap索引,指标的贡献。
Latency&Tail:pXX,跨域/路线的TailAmplification heatmap。
Reliability Panel: SLA-брейки, MTTR, DLQ/Replay, backpressure.
安全与信托:可疑信号,诽谤,甲骨文差异。
经济:服务成本,保证金/消息,资源公平。
Finality&Bridge Risk: finality lag,挑战,桥梁事件。
合规性:地理区块,年龄,报告,监管机构查询。
8)自动反应政策(政策手册)
SLO大门:超支预算过剩→ ↓ Q0/Q1配额,Q4优先级;包括电路断路器。
关税:TailAmplification的增长,需求稳定→价格↑"嘈杂"的流量;可持续的质量→ ↓收费率。
风险:安全/合规事件激增→失败关闭,S-质押增加。
激励措施:具有稳定PFI/RLI的域→范围/可见性奖励;违规者-罚款/clawback。
Релизы: regression detector → auto rollback/feature flag.
9)事件管理
1.细节:p95/最终值/错误/成本异常。
2.分类:完整性/可用性/性能/合规性。
3.隔离:按路线行驶,排队,限制,人工法定人数。
4.赔偿:来自RNFT保单下的保险池。
5.后太平间:公开报告,签名更新,权重/限制调整。
10)与条约和角色的关系
RNFT权利:节点/提供商/附属机构的个人SLO/限制。
R声誉:访问/投票和价格修改器;可持续的质量→ ↓ S要求。
S保释:覆盖事件,在违规行为中剥离。
11)公式和地标
SuccessRate = 1 − (timeouts + errors)/requests
TailAmplification=p99/p50(zadayet治理走廊)
Cost/Req=Σ(资源×费率)/成功_查询
FairnessIndex (Jain)=(Σ x) ²/(n· Σ x ²)按配额/资源分列
Headroom = (cap − current)/cap, FinalityScore = f(lag, variance, reorgs)
12)实施花花公子(按步骤)
1.绘制关键路径和QoS类;SLO协调。
2.遥测方案:跟踪,度量,策略逻辑,事件护照。
3.正常化: robastic量表,EWMA窗口,winsorization.
4.ISS v1。0:起始权重,区域阈值,日落程序。
5.Dashbords和Alerts: error预算,policy hooks触发器。
6.基准和混乱:定期运行,失败演习。
7.事件:后太平间模板,保险基金,RNFT罚款。
8. 治理:SLO/权重/走廊改革进程,季度审计。
9.自动化:与路由、配额、费率和发布门捆绑在一起。
10.飞行员→缩放:从一个域到多通道。
13)KPI"健康"计划"
绿色SLO ≥ X%的路径比例;MTTR中位数≤ Z。
TailAmplification在稳定通量下降低到Δ。
降低Cost/Req和DLQ水平而不降低成功率。
NRR/GRR的增长具有不变或更好的安全性。
报告及时性(TTC报告≤ Y小时),基准覆盖率≥ K%。
正义:走廊上的FairnessIndex,"无声邻居"事件的减少。
14)准备就绪支票清单
- 由SLO/SLA根据QoS类和域定义
- 实现E2E跟踪、等效性和去势性
- 引入了s治理-Vesses的Robast正常化和ISS
- 设置了Alerta、Error预算和自动触发器
- 可供使用Performance/Reliability/Security/Economy/Compliance dashboard
- 运行基准和混沌运行;描述了后面的mortems
- 整合了RNFT权利,R/S政策和保险基金
- 定期公开报告和权重审计
15)词汇表
ISS:sap指数的网络健康综合。
SLO/SLA:服务目标/合同级别。
错误预算:反应前允许的错误比例。
TailAmplification:加固延迟尾巴。
DLQ/Replay:隔离/重新处理。
日落过程:自动回滚参数的时间变化。
16)结果
网络健康评估不是"追溯"报告,而是操作控制轮廓:健壮的指标→复合材料→阈值SLO →自动动作→公开报告i治理。这样的系统使生态系统具有可预测性,抗冲击性,并且对所有角色(从节点和提供商到创建者和运营商)都是诚实的。